這是鼎叔的第九十八篇原創文章。行業大牛和剛畢業的小白,都可以進來聊聊。
階段性總結下我對ChatGPT的基礎理解,算是一篇學習思考筆記吧。其中難免有很多不準確的,或過于簡略的地方,將來再迭代學習。
OpenAI做ChatGPT的底層邏輯
一句話描述,就是大力出奇跡。為什么會產生這種結果呢?
這要從AI發展的兩大流派說起,就是符號主義和連接主義。前者基于邏輯推理的智能模擬方式,通過專家對于符號的深入研究來完善邏輯推理。這種方式的最大局限性是在真實場景中要考慮的邏輯推理過于復雜了,想達到用戶的高滿意度極其困難。
連接主義就是從腦神經的結構受到啟發,主要神經元數量足夠多,訓練的輸入量足夠龐大,訓練出來的神經元連接效果就有可能達到人類思考的水平。人的大腦形成認知,就是某些神經元的鏈接輸出被固化了。
OpenAI在這個方面下的賭注成功了,海量參數、極其龐大的訓練文本和巨大算力,最終產生了涌現的進化效果,復雜常識的理解能力急劇提升。垂直小模型的推理難題被輕松解決。
一夜之間很多老AI人覺得以往的研究白干了,但是新模型的前景又讓從業人員無比興奮。
ChatGPT訓練成功的要素
個人觀點,這是非專業初學者更應該努力理解的:ChatGPT訓練成功,主要做對了哪幾件事(除了“大”),繼承了什么好的遺產。
1 預訓練。
ChatGPT對互聯網上的海量信息進行了無監督學習,這些龐大的已有信息顯然絕大部分都沒有被人工標注過,也不可避免夾帶了大量低質量的信息,包括網絡上常見的陰謀論,偏見等。
ChatGPT從未標注數據中自動推導出預訓練數據,使預訓練變得更有擴展性。
預訓練也是遷移學習在深度學習中實現的主要方法,通過在替代性任務上訓練模型,然后將其適配到下游任務中,實現了跨任務的知識遷移。
2 RLHF 基于人類反饋的強化學習
RLHF解決的核心問題是,讓大模型生成內容和人類的常識、認知、需求和價值觀保持一致。
OpenAI團隊首先從海量數據集中,搜集包含有“問題”和“答案”的數據對,然后用它們來訓練一個獎勵模型,當輸入文本的質量越高(即更符合人類評價標準),獎勵分數越高。最后讓大語言模型能夠根據這個獎勵模型給出的獎勵分數來自我生成更高質量的回答。
這個技術方案依然面對大量倫理監管和局限性挑戰,還在不斷演進中。
3 模型微調。
多數組織其實是無法滿足預訓練和微調基礎模型的計算要求的,以共生為關聯和標準模型訓練,會產生虛假關聯和東拼西湊的合成結果。
每家公司不可能都從頭訓練一個自己的大模型,要想在自己服務接口中提供大模型能力,推理成本是必須考慮的要素,微調相對來說就是一個更優的方案。輕量級的微調模型也能夠針對每個用戶的數據進行訓練,同時滿足數據安全的需求。
4 Transformer和自注意力機制
ChatGPT的技術基礎就是谷歌的Transformer深度學習模型。傳統的自然語言處理模型難以進行并行計算,導致長文本處理時性能下降非常明顯。
Transformer模型是基于自注意力機制來構建的,包含編碼器和解碼器兩個部分,前者負責將輸入序列轉換為定長的向量表示,后者將向量解碼為輸出序列,自注意力機制能夠建立長距離的依賴關系,即使經過多輪對話,還能夠保持對前文指代的正確理解。Transformer的并行計算能力讓它在長序列處理時具有更高的效率。
5 Token機制
Token是ChatGPT這種大語言模型最重要的概念。Token就是文本處理的最小單位,英文中就是一個單詞,中文中就是一個分詞。輸入的每個token都會對應一個唯一的數字ID,以便讓模型進行編碼和解碼。
對于包含了數億甚至數十億參數的大模型,要實現高效的訓練和推理,模型的輸入必須進行限制,長文本就會基于Token進行分割。這種表示形式既有利于大模型的處理,也有利于通過token之間關系的學習來獲取更多語義信息。
最近爆火的視頻生成大模型Sora,也使用了類似的概念-最小視頻單位Patch。當微觀學習尺度是統一的,不管什么尺寸、分辨率和幀率的輸入視頻都可以統一進行學習和輸出。
ChatGPT的商業機會
商業機會按產業細分類型,可以分為這幾類受益領域:
1 提供AI算力的公司,提供定制化,合理計費的算力服務。
2 提供上游數據服務的公司,包括對數據進行查詢、轉換、標注和治理。
3 提供中間算法定制模型的公司和研究機構。具備真正基礎大模型研發能力的公司非常少,但是提供垂直能力封裝的、體驗強化的中間模型,還是很有市場的,但這塊需要有足夠強的垂直行業能力或者客戶服務嗅覺,或者建設活躍的AI交流社區。
4 提供熱門應用拓展能力的公司。這樣的公司有兩類,一類是在某類應用上已經有先發優勢,有大量的忠實用戶,然后把大模型能力引入到特定的用戶場景,成功地形成口碑效應,增加了付費意愿。
還有一類創業型公司,快速利用大模型的能力提供嘗鮮產品,利用自己的“快”趕在大公司的前面,在應用場景上截胡用戶。這類公司的員工非常少,非常精,容易獲得高估值,對同類“老”公司帶來不少威脅。這類公司的核心靈活打法就是瘋狂地采集免費訓練數據,趁平臺大公司反擊之前訓練好基礎模型,拉到初期的用戶群,因為員工極少,發展驚人,能進一步擴大估值和融資。
ChatGPT目前的局限
實時性不足,肯定是現階段ChatGPT的主要問題。大模型是基于已有海量內容的預訓練來升級的,時效性暫時還有很大的短板。
創造力有限。ChatGPT能夠自我優化內容質量,根據用戶興趣進行調整,但生成內容依然缺乏原創性,也缺乏可控制的個性化內容。長此以往會降低使用者的熱情和工作能力,部分使用者會依賴大模型工具,自身能力會退化。
全新任務的遷移能力不佳。ChatGPT能夠連貫地輸出有邏輯性的文本,但它在理解語境和情感時可能會受到數據偏差和模型偏移的影響,導致在新的場景任務中表現不佳。大模型學習掌握了一定的語言規律和人類的思維方式,但在創造文本時存在語法邏輯瑕疵,需要后期糾正。
人類文明的思維復雜性是在多維度的,體現了其多樣性,這遠不是讓計算機求解問題這么單純直接。
ChatGPT重塑溝通效率
ChatGPT帶來的自然語言表達效率空前提升,給我們的啟發是,可以利用ChatGPT把需要大量溝通的業務重做一遍。
對于溝通表達可能比較弱的工程師,ChatGPT可能是幫助工程師對外溝通的利器,工程師可以按心目中的標準訓練特定產品,讓非技術人員和該產品先行互動,節約自己的人工溝通時間。
這也是鼎叔在團隊敏捷實踐中引入大模型解決手段的初衷。技術人員和非技術人員不一定都能不厭其煩地面對面交流,理解對方意圖的初級AI可能是不錯的預溝通橋梁。
還有一類溝通困難場景,是因為某一方(客戶或者員工)比較羞澀,尷尬。借助ChatGPT問答,不用操心自己的隱私暴露,比如心理/生理問題的咨詢服務。
此外,教育界對于ChatGPT在學校的使用會嚴防死守,但它確實可以大幅提高老師的日常效率,節約大量批改作業和教學雜活的時間,同時為學生的個性化教育帶來了可能性。
ChatGPT的進化方向
一 和搜索技術更好的整合,比如RAG技術。搜索技術和ChatGPT看起來有相似性,但也有很多本質的不同。
搜索引擎由搜索器,索引器,檢索器,用戶接口組成,搜索產品對于結果的實時性要求高。但搜索產品的結果體驗始終不佳,滿屏的搜索結果還夾雜著大量廣告,讓普通用戶無從選擇。
ChatGPT的體驗是革命性的,讓用戶眼前一亮,并且能夠順利地聊下去,得益于長效的注意力機制,前后連貫的推理和互動,讓用戶活躍度暴漲。
兩者互相印證,互為補充,可以大幅提升大模型答案的實時性,還可以降低回答的幻覺率。
二 和知識圖譜更好的結合。這點有待更多學習。
三 多模態的發展。四大模態(文本,音頻,圖片,視頻)的商業機會在互相滲透,虎視眈眈,對用戶而言分界線并不明顯,多模態提供了更多強者通吃的機會。
四 AI倫理有關的技術管理體系。
大模型的數據標注訓練,本身就存在人為錯誤可能,如果被惡意標注,會產生極大偏離主流價值觀的結果。
惡意引入大量的“特殊語料”或者加大其權重,也可以起到扭曲價值觀的目的。
不怕一眼假的幻覺,就怕看不出真假的幻覺,把產品快速被調教成“壞人”。
可以想見,AI倫理的破壞者手段更加隱蔽,難以追查,這也對管理制度和體系化能力提出了更高要求。
因為大模型本身的不可解釋性,黑產團伙也可能操縱訓練數據集,生成他們想要的對抗樣本。
五 具身智能。就像最近OpenAI和機器人公司合作,在短短時間就給機器人進行了認知賦能,機器人本身精準的控制力,又能把AI指令和行動近乎完美的融合在一起。
六 AI Agents群體智能,ChatGPT是其中當仁不讓的大腦。
大模型實體是由不同公司,不同資源和不同技能團隊負責的,在AGI(通用人工智能)真正成熟之前,每個大模型產品都有自己擅長的垂直能力和不擅長的短板。
當我們要輸出一個用戶滿意的智能方案,完全可以調用多個不同的大模型實體來完成,它們就叫Agents。
比如一個自動生成的金融報告平臺,會需要擅長寫報告的agent,擅長分析商業數據的agent,擅長繪制金融圖片的agent,以及擅長做風險和收益分析的agent,這四個agent在后臺共同協作,前臺由ChatGPT直接和用戶對話和反饋。