最近幾天,國內 AI 創業公司正在連續刷新大模型的能力上限。
5 月 22 日,百川智能發布最新一代基座大模型 Baichuan 4,同時推出了首款 AI 助手「百小應」。
相較 1 月份發布的 Baichuan 3,新一代模型在各項能力上均有大幅提升,其中通用能力提升超過 10%,數學和代碼能力分別提升 14% 和 9%,在國內權威大模型評測機構 SuperCLUE 的評測中,Baichuan-4 大模型能力排名國內第一,超越了 SenseChat V5。
「在通往 AGI 的路上,我們需要超級模型 + 超級應用的雙輪驅動。這是百川自去年成立時確立的基本理念,」百川智能創始人、CEO 王小川表示。「模型能力與超級應用都非常重要。這次的發布,是我們在這條道路上的進步。」
本次更新的 Baichun 4 大模型首次帶來了多模態能力。百川表示,新模型在各大評測基準上表現優異,領先 Gemini Pro、Claude3-sonnet 等多模態模型。
盡管帶來了多模態能力,但接下來的技術發展規劃中,自然語言仍然是重點。王小川表示,大模型的核心是語言智能,推理能力仍然需要突破,多模態沒有智力,只是對世界的復現。
「今天的大模型自洽性都不夠,模型思考缺乏嚴謹性。有足夠好的邏輯是更加重要的事。我不認為模型的長文本是唯一的事情,現在 AI 公司在長文本上競爭,但長文本只是做大的必要條件,不是充分條件。我認為模型本身未來更要強調內在的自洽性和推理能力,這兩件事并不是靠長窗口去解決的,」王小川表示。
在 Baichuan 4 強大能力的基礎上,百川智能將搜索技術與大模型深度融合,推出懂搜索、會提問的 AI 助手「百小應」。
百小應不僅可以隨時回答用戶提出的各種問題,速讀文件、整理資料、輔助創作等,還具備多輪搜索、定向搜索等搜索能力,能更精準地理解用戶需求,為用戶提供專業、豐富的知識和資源。此外還會在用戶問題的基礎上通過一系列提問來幫助用戶明確自身需求,給出更精準的答案。
百小應現在已經在 Web 端、iOS 和安卓應用商店同步上線,鏈接:https://ying.baichuan-ai.com/chat
此外,百川智能還宣布開放 Baichuan 4、Baichuan3-Turbo、Baichuan3-Turbo-128k、Assistant API 四款 API,所有開發者、企業用戶均可登錄百川智能開發者中心選擇并接入相應 API,便捷高效地體驗百川智能新一代模型的強大能力。
新模型能力國內第一
多項能力超越國外主流模型
作為百川智能發布的最新一代基座大模型,Baichuan 4 在國內權威大模型評測機構 SuperCLUE 的評測中,模型能力國內第一,相較上一代大模型 Baichuan 3 提升顯著。
不僅如此,與國外主流大模型對比,Baichuan4 在知識百科、長文本、生成創作等文科類中文任務上明顯優于國外大模型。
Baichuan 4 能在較短的時間內取得突破,源于其在訓練過程中引入了諸多業界領先的技術優化手段。例如,其在預訓練階段采用了基于 Model-based+Human-based 的協同數據篩選優化方法,以及對長文本建模位置編碼科學的 Scaling Law,有效提升了模型對數據的利用。
在對齊階段,新模型重點優化了模型 Reasoning、Planning、Instruct following 能力,通過 loss 驅動的數據選取與訓練,多階段爬坡,多模型參數融合等方式有效提升了模型的關鍵指標和穩定性。同時突破 RLHF 和 RLAIF 融合的 RLxF 強化學習對齊技術,大幅提升模型的指令遵循等能力。
此外,Baichuan 4 還具備行業領先的多模態能力,在 MMMU、MMBench-EN、CMMMU、MMBench-CN、MathVista 等評測基準上表現優異,大幅領先 Gemini Pro、Claude3-sonnet 等多模態模型。
首款 AI 助手百小應
懂搜索、會提問
「百小應」是百川智能成立之后推出的首款 AI 應用。百川智能認為,不同于信息時代工具屬性的產品,大模型創造的是新物種,讓 AI 從工具變為伙伴。雖然受限于模型能力,當下的 AI 應用還無法完全做到如同人一樣,能夠使用工具、會思考、有情感等,但隨著模型能力的持續提升,相關應用一定會逐步具備完整能力。
為了讓用戶能夠擁有更優質的智能體驗,百小應很好地融合了 Baichan 4 行業領先的通用能力與百川智能前沿的搜索技術,具備多步搜索、智能定向搜索等能力,將百小應打造成一款懂搜索、會提問的 AI 助手。
百川著重展示了百小應交互中的多輪搜索能力。針對用戶提出的問題,百小應可以逐步解析,深入探究,解鎖問題的核心答案。相比單輪搜索,在市場調研、產業分析等復雜場景下,多輪搜索能夠有效地獲取更專業、更有深度的信息。定向搜索則能讓百小應精準定位問題領域,直接訪問權威站點,快速、準確地找到相關信息。
在搜索結果呈現方面,百小應同樣與其他在單次搜索后「簡單總結網頁信息」的應用不同,會將搜索結果作為觀點、論據直接應用到問答結果中。與此同時,其結果的結構化也非常優秀,能夠將搜索結果以表格等結構化形式呈現,優化信息布局,便于用戶快速定位、解讀所需信息,可以為行業分析、調研工作提供助力。此外,百小應還在搜索結果中增加了來源參考,用戶只需點擊引用角標即可快速校驗搜索結果。
不僅如此,針對一部分用戶無法明確表述出自身需求,或者問題過于籠統、抽象的情況,百小應還會通過反問的方式,多輪交互定位需求,構建個性化解決方案,給出更精準的答案。
除了強大的搜索和提問功能以外,用戶還能在百小應中上傳 PDF、word 文檔,或者直接輸入網頁鏈接(URL),閱讀并分析書籍、報告、學術論文等長篇內容,僅用一分鐘便能讀完上市公司財報。在 Baichuan 4 多模態能力的支持下,用戶在提問的同時還可以同步上傳圖片,對圖片內容進行解讀,或者將圖片作為補充材料,獲取更精準的回答;并且,它還支持用戶通過語音的方式進行交互。
百小應的名稱源自「一呼百應」,icon 中的橙色區別于科技領域常用的冷色調,寓意有溫度的人工智能,icon 中的形象由水滴和對話氣泡組合而成,水滴象征百川入海的無盡智慧,對話氣泡象征溝通交流。
MaaS 1000 萬免費
token、AaaS 免費試用
百川智能認為,企業客戶需要的并不是大模型,而是生產力、生產效率的提升,擁有 MaaS+ AaaS(Agent as a service)雙重能力,企業才能構建出智能化的最佳方案。
秉持這一理念,百川智能推出了全新的 MaaS+AaaS 服務。MaaS 版塊由基座模型組成,分為旗艦版和專業版。旗艦版將全量開放 Baichuan 4 的各項能力,Baichuan 4 不僅擁有國內第一的中文能力,并且具備行業領先的金融知識和問答能力,在 SuperCLUE 的金融知識百科能力上 Baichuan 3 就已取得了 A + 的最高評級。
專業版包含 Baichuan3-Turbo 和 Baichuan3-Turbo-128K 兩款模型,在價格方面相比旗艦版 Baichuan 4 更實惠,且均針對企業用的高頻場景進行了針對性優化,綜合測試相比 GPT3.5 整體效果提升 8.9%。百川智能表示,即日起,MaaS 的新用戶可以獲得 1000 萬免費 token。
Assitants API 是百川智能在 Baichuan 4 基礎上針對 Agent 構建推出的 API 接口,不僅支持 Code interpreter、RAG 內建工具,還支持自定義工具調用,方便企業接入各種豐富復雜的 API。評測結果顯示其工具調用能力接近 Open AI Assistants API,本次發布的 Assitants API 現已正式開啟公測,感興趣的用戶均可申請免費試用。
未來,百川智能將推出零代碼 Agent 創建平臺產品,讓業務人員通過自然語言的方式,也能創建 Agent,更好地賦能企業智能化發展。
不過除此之外,百川似乎并不熱衷于投身目前競爭激烈的大模型 API 價格戰。
「中國商業環境里 to B 的市場規模比 to C 小 10 倍,to B 收的是人民幣,花的是美金。到最后大廠都會卷這件事,只是沒想到大家卷得這么狠,價格已經打到零了。這肯定是大廠射程范圍內的,而我們肯定要做差異化,」王小川表示。
面向消費端的百小應,是百川智能投身超級應用的重要一步。
百小應不僅沒有上套,還直接點破了這個套路:拼多多成立于2015年9月,所以2010年沒有用戶數據。
百小應與文心一言、Kimi 智能助手相似,面向C端消費市場,主打賣點是“懂搜索,會提問”,這沒有跑出目前很火的AI搜索應用的范疇。
根據介紹,百小應不僅可以隨時回答用戶提出的各種問題,速讀文件、整理資料、輔助創作等,還具備多輪搜索、定向搜索、提供嵌入式搜索結果等三重搜索能力。此外,還會在用戶問題的基礎上,通過一系列提問來幫助用戶明確自身需求,給出更精準的答案。并且,它還支持用戶通過語音進行交互。
基于百川基座大模型的能力,“會提問”也是百小應與其他簡單語音助手的重要差異點。比如當用戶問引擎蓋打不開了怎么辦,它會先詢問車輛的品牌和型號,以及是哪一年的車,再給出精準的回答。王小川對此解釋說,“大模型要理解人的意圖,實現從’助手’向’伙伴’的轉變。”
其實,單從名字上就能看出他對“百小應”的期待:一呼百應,從小問題見大能力。但王小川也承認,百小應和他要的形象還有一定的距離,實際效果沒有達到他想要的“超級應用”狀態。現階段市場上,既沒有超級模型,也沒有超級應用。
如何學習大模型 AI ?
由于新崗位的生產效率,要優于被取代崗位的生產效率,所以實際上整個社會的生產效率是提升的。
但是具體到個人,只能說是:
“最先掌握AI的人,將會比較晚掌握AI的人有競爭優勢”。
這句話,放在計算機、互聯網、移動互聯網的開局時期,都是一樣的道理。
我在一線互聯網企業工作十余年里,指導過不少同行后輩。幫助很多人得到了學習和成長。
我意識到有很多經驗和知識值得分享給大家,也可以通過我們的能力和經驗解答大家在人工智能學習中的很多困惑,所以在工作繁忙的情況下還是堅持各種整理和分享。但苦于知識傳播途徑有限,很多互聯網行業朋友無法獲得正確的資料得到學習提升,故此將并將重要的AI大模型資料包括AI大模型入門學習思維導圖、精品AI大模型學習書籍手冊、視頻教程、實戰學習等錄播視頻免費分享出來。
第一階段(10天):初階應用
該階段讓大家對大模型 AI有一個最前沿的認識,對大模型 AI 的理解超過 95% 的人,可以在相關討論時發表高級、不跟風、又接地氣的見解,別人只會和 AI 聊天,而你能調教 AI,并能用代碼將大模型和業務銜接。
- 大模型 AI 能干什么?
- 大模型是怎樣獲得「智能」的?
- 用好 AI 的核心心法
- 大模型應用業務架構
- 大模型應用技術架構
- 代碼示例:向 GPT-3.5 灌入新知識
- 提示工程的意義和核心思想
- Prompt 典型構成
- 指令調優方法論
- 思維鏈和思維樹
- Prompt 攻擊和防范
- …
第二階段(30天):高階應用
該階段我們正式進入大模型 AI 進階實戰學習,學會構造私有知識庫,擴展 AI 的能力。快速開發一個完整的基于 agent 對話機器人。掌握功能最強的大模型開發框架,抓住最新的技術進展,適合 Python 和 JavaScript 程序員。
- 為什么要做 RAG
- 搭建一個簡單的 ChatPDF
- 檢索的基礎概念
- 什么是向量表示(Embeddings)
- 向量數據庫與向量檢索
- 基于向量檢索的 RAG
- 搭建 RAG 系統的擴展知識
- 混合檢索與 RAG-Fusion 簡介
- 向量模型本地部署
- …
第三階段(30天):模型訓練
恭喜你,如果學到這里,你基本可以找到一份大模型 AI相關的工作,自己也能訓練 GPT 了!通過微調,訓練自己的垂直大模型,能獨立訓練開源多模態大模型,掌握更多技術方案。
到此為止,大概2個月的時間。你已經成為了一名“AI小子”。那么你還想往下探索嗎?
- 為什么要做 RAG
- 什么是模型
- 什么是模型訓練
- 求解器 & 損失函數簡介
- 小實驗2:手寫一個簡單的神經網絡并訓練它
- 什么是訓練/預訓練/微調/輕量化微調
- Transformer結構簡介
- 輕量化微調
- 實驗數據集的構建
- …
第四階段(20天):商業閉環
對全球大模型從性能、吞吐量、成本等方面有一定的認知,可以在云端和本地等多種環境下部署大模型,找到適合自己的項目/創業方向,做一名被 AI 武裝的產品經理。
- 硬件選型
- 帶你了解全球大模型
- 使用國產大模型服務
- 搭建 OpenAI 代理
- 熱身:基于阿里云 PAI 部署 Stable Diffusion
- 在本地計算機運行大模型
- 大模型的私有化部署
- 基于 vLLM 部署大模型
- 案例:如何優雅地在阿里云私有部署開源大模型
- 部署一套開源 LLM 項目
- 內容安全
- 互聯網信息服務算法備案
- …
學習是一個過程,只要學習就會有挑戰。天道酬勤,你越努力,就會成為越優秀的自己。
如果你能在15天內完成所有的任務,那你堪稱天才。然而,如果你能完成 60-70% 的內容,你就已經開始具備成為一名大模型 AI 的正確特征了。