2024年對大型語言模型(LLMs)來說是充滿變革的一年。以下是對過去一年中LLMs領域的關鍵進展和主題的總結。
GPT-4的壁壘被打破
去年,我們還在討論如何構建超越GPT-4的模型。如今,已有18個組織擁有在Chatbot Arena排行榜上超越原始GPT-4的模型,共計70個模型。其中,Google的Gemini 1.5 Pro和Anthropic的Claude 3系列尤為突出,它們不僅達到了GPT-4的水平,還引入了新功能,如更長的輸入上下文和視頻輸入能力。
LLMs價格大幅下降
得益于競爭和效率提升,運行頂級托管LLMs的成本在過去一年中大幅下降。OpenAI的最貴模型價格從GPT-3時代的100倍降低到現在的1/100。這種價格下降直接關系到運行提示所消耗的能量,對環境影響的擔憂有所減輕。
多模態視覺成為常態,音頻和視頻開始興起
2024年,幾乎所有重要的模型供應商都發布了多模態模型。這些模型能夠處理圖像、音頻和視頻,為用戶提供了新的應用方式。
語音和實時攝像頭模式讓科幻成為現實
語音和實時視頻模式的發展尤為引人注目。GPT-4o和Google的Gemini等模型現在可以接受音頻輸入并輸出非常逼真的語音,而不需要單獨的TTS或STT模型。
提示驅動的應用生成已成為商品
LLMs在2023年已經能夠生成代碼,而2024年它們能夠生成完整的交互式應用程序。Anthropic的Claude Artifacts和GitHub的GitHub Spark等功能允許用戶直接在界面中使用生成的應用程序。
最佳模型的普遍訪問僅持續了幾個月
今年初,GPT-4o、Claude 3.5 Sonnet和Gemini 1.5 Pro等最佳模型對大多數人免費開放。然而,隨著OpenAI推出ChatGPT Pro訂閱服務,免費訪問最佳模型的時代可能已經結束。
“代理”仍未真正實現
“代理”一詞缺乏明確且廣泛理解的含義。盡管如此,代理的概念仍然讓人感覺“即將到來”,但基于LLMs的代理在實用性上仍存在挑戰。
評估(Evals)至關重要
為LLM驅動的系統編寫良好的自動化評估是構建有用應用程序的關鍵技能。擁有強大的評估套件可以幫助你更快地采用新模型,更好地迭代,并構建比競爭對手更可靠和有用的產品特性。
Apple Intelligence不佳,但Apple的MLX庫表現出色
Apple的MLX庫為在Mac上運行各種MLX兼容模型提供了極好性能。然而,Apple自己的“Apple Intelligence”功能大多令人失望。
推理擴展“推理”模型的崛起
OpenAI的o1模型是這類模型的代表,它們通過在模型內部花費“推理令牌”來思考問題,然后輸出最終結果。這種模型為擴展模型性能提供了新的方式。
最佳可用LLM是否在中國以不到600萬美元訓練而成?
DeepSeek v3是一個擁有685B參數的大型模型,其訓練成本僅為5,576,000美元,這是一個非常積極的跡象,表明訓練成本可以且應該繼續下降。
環境影響有所改善
模型效率的提高導致運行提示的能量使用和環境影響大幅下降。OpenAI的提示費用比GPT-3時代降低了100倍。
環境影響變得更糟
大型科技公司正在花費數十億美元建設新數據中心,對電網和環境產生實質性影響。這種基礎設施建設是否必要,還是一個未知數。
“slop”成為行業術語
“slop”一詞被用來描述未經請求且未經審查的AI生成內容。這個概念已經成為討論現代AI的簡潔方式。
合成訓練數據效果顯著
盡管有關模型崩潰的討論,但AI實驗室越來越多地在訓練中使用合成內容,以引導模型朝著正確的方向發展。
LLMs變得更加難以使用
LLMs是復雜的工具,需要深入了解和經驗才能充分利用并避免陷阱。隨著系統的增多,用戶需要了解不同系統的工具和限制。
知識分布極不均勻
大多數人可能聽說過ChatGPT,但對其他模型如Claude的了解甚少。這種知識差距對社會發展不利。
LLMs需要更好的批評
LLMs確實值得批評,我們需要討論這些問題,找到緩解方法,并幫助人們學習如何負責任地使用這些工具。
以上是對2024年LLMs發展的總結,這一年在LLMs領域發生了很多變化,從技術進步到環境影響,再到社會接受度,LLMs正以前所未有的速度發展和影響著我們的世界。