一、研究背景與概述
在當今數字化轉型加速的背景下,人工智能技術正深刻改變企業協作與溝通方式。作為全球領先的視頻會議平臺,Zoom 已從單純的通信工具轉型為全面的生產力平臺,而其 AI 技術架構是這一轉變的核心驅動力。本報告將深入分析 Zoom 的 AI 技術架構,特別是其創新性的聯合式 AI 方法、模型組合策略以及多模態集成技術,揭示 Zoom 如何通過技術創新實現高效、安全且經濟的 AI 服務。
Zoom 采用聯合式 AI 架構,整合了多種大型語言模型 (LLMs) 與其自有的小型語言模型 (SLMs),這種獨特方法使其能夠在保持高質量輸出的同時顯著降低成本。2023 年 11 月,Zoom 的聯合式 AI 方法已實現接近 OpenAI GPT-4 的質量水平,而推理成本僅為后者的 6%。到 2025 年,Zoom 進一步優化了其 AI 質量,在最受歡迎的會議功能上,Zoom AI Companion 的相對誤差比 GPT-4 降低了 20%(會議摘要 "重述") 和 60%(會議 "下一步行動")。
本研究將從技術架構、模型組合、工作流程、多語言處理、安全隱私保護等多個維度,全面剖析 Zoom 的 AI 技術體系,為理解現代企業級 AI 應用提供深度洞察。
二、聯合式 AI 架構核心設計
2.1 聯合式架構的基本原理
Zoom 的聯合式 AI架構是一種創新的分布式 AI 系統設計,它允許多個不同的 AI 模型協同工作,以實現比單一模型更高的性能和效率。與傳統的集中式 AI 架構不同,聯合式架構能夠動態整合多個模型的優勢,同時避免了對單一模型的依賴。
"Zoom 的聯合式 AI 方法在用戶最需要的地方更有效。"Zoom首席技術官黃學東在 2025 年 2 月的更新中強調," 通過這種方法,我們可以提供高質量的 AI 體驗,特別是在會議摘要和下一步行動等關鍵功能上。"
聯合式架構的核心優勢在于:
- 質量提升:通過模型間的協作,聯合式架構能夠生成比單一模型更準確、更全面的結果。
- 成本優化:智能選擇最適合特定任務的模型,避免了總是使用最高成本模型的浪費。
- 靈活性與適應性:能夠根據任務需求和環境變化動態調整模型組合。
- 可靠性增強:多模型的冗余設計提高了系統的容錯能力和穩定性。
2.2 聯合式架構的實現方式
Zoom 聯合式 AI 架構的實現主要通過以下幾個關鍵組件:
- 模型組合策略:Zoom 整合了多種閉源和開源的高級大型語言模型 (LLMs),包括其自研的 Zoom LLM 以及第三方模型如 OpenAI 的 GPT-4 和 Anthropic 的 Claude 2。這種組合策略使 Zoom 能夠利用不同模型的獨特優勢,避免了對特定 LLM 的依賴,這與微軟 Copilot 依賴 GPT-4、谷歌依賴 Gemini 等競爭對手形成鮮明對比。
- Z 評分器 (Z-scorer) 評估機制:Zoom 開發了專有的 Z評分器來評判 AI 生成結果的質量。首先使用適合任務的低成本 LLM 完成任務,然后通過 Z 評分器評估初始任務完成質量。如果需要,系統會使用更高級的 LLM 對初始結果進行增強,類似于一個高效團隊協作產生高質量產品的方式。
- 聯合強化學習:為了更好地與人類偏好對齊,Zoom 改進了聯合強化學習技術。通過將 Zoom LLM 與一組互補的 LLMs 聯合使用,Zoom 的會議摘要功能現在能夠提供高質量的結果,根據最近的基準測試,其性能甚至可以超過用于微軟 Teams 中 Copilot 的 GPT-4。
- 多模型委員會機制:為了減少大多數 LLM 中固有的偏見,Zoom 組建了一個由多個 LLM (如 Claude-3、Gemini 和 GPT-4) 組成的委員會,以減少幻覺并改進 Zoom LLM。不同的 LLM 不太可能犯相同的幻覺錯誤,因此可以得出更一致的響應并減少異常值的影響。
這種聯合式架構使 Zoom 能夠為客戶提供高質量的體驗,特別是在其最受歡迎的功能上。根據內部基準測試,Zoom 的 AI Companion 在會議摘要和下一步行動方面的表現已經超越了 GPT-4。
三、模型組合策略:小模型與大模型協同
3.1 Zoom 的混合模型架構
Zoom 采用了一種獨特的混合 AI 模型架構,結合了 "云端大模型 + 邊緣小模型" 的策略,既兼顧了推理效率又保護了數據隱私。這種架構設計與行業內通常從大模型提取小模型的做法截然不同,Zoom 選擇了從零開始構建其 20 億參數的小型語言模型 (SLM)。
定制化小型語言模型:Zoom 的小型語言模型 (SLM) 是其 AI 架構的核心組件。黃學東指出,定制化的小模型在特定領域中的表現顯著優于通用模型,成為開發智能代理工作流程的核心。這種方法使 Zoom 能夠針對特定任務優化模型性能,同時降低計算資源需求。
多模型協同工作:Zoom 并沒有依賴單一的大語言模型,而是采取了一種聯合方法,結合多個通用大語言模型和自己定制的小語言模型。在技術架構方面,Zoom 引入了 20 億參數的小語言模型,這一舉措與行業通常的從大模型提取小模型的做法截然不同。
大模型與小模型的協同機制:當智能代理 AI 處理輸入內容時,首先利用自家定制的小型語言模型進行初步分析,然后再將結果傳遞給更為強大的語言模型,以生成最終輸出。這一過程不僅提高了反應速度,也確保了內容的高質量。
3.2 模型組合的優勢與創新
Zoom 的模型組合策略帶來了多項技術優勢:
- 性能與成本的平衡:通過首先使用適合任務的低成本 LLM 完成任務,Zoom 能夠在保持高質量輸出的同時顯著降低成本。根據內部測試,Zoom 的聯合式 AI 方法在 2023 年 11 月就已實現接近 OpenAI GPT-4 的質量水平,而推理成本僅為后者的 6%。到 2025 年,這一優勢進一步擴大,特別是在會議摘要的 "下一步行動" 功能上,相對誤差降低了 60%。
- 適應性與靈活性:Zoom 的聯合式架構可以整合來自合作伙伴的更新、更先進的 LLM 技術,如 OpenAI 的 GPT-4 Turbo,而無需對整個系統進行大規模重構。這種靈活性使 Zoom 能夠快速采用新技術,同時保持系統的穩定性和兼容性。
- 特定領域性能優化:Zoom 的小型語言模型是針對特定領域任務優化的,如會議摘要、實時轉錄和智能回復等功能。這種定制化方法使模型在特定任務上的表現顯著優于通用大模型,提高了整體系統的效率和準確性。
- 資源高效利用:通過動態分配不同復雜度的任務給相應的模型,Zoom實現了計算資源的高效利用。簡單任務由輕量級模型處理,復雜任務則由更強大的模型處理,這種資源分配策略最大化了系統的吞吐量和響應速度。
四、Z 評分器機制與任務優化流程
4.1 Z 評分器的技術原理
Z 評分器是 Zoom AI 技術架構中的關鍵組件,用于評估 AI 生成結果的質量并指導后續優化過程。這一機制的設計靈感來源于統計學中的 Z 分數概念,用于衡量數據點與平均值的偏離程度。</