本文無圖。
大模型
?2022年2月,?文生圖應用的鼻祖Midjourney上線。
?2022年8月,?開源版的Midjourney,也就是Stable Diffusion上線。
2022年11月30日?,OpenAI正式發布ChatGPT-3.5。
此后,不斷有【大模型】面世,例如國內的文心一言、通義千問、訊飛星火、智譜清言、DeepSeek等,國外的LlaMa、Gemini等。
一點小常識:
-
【量化】:在各類開源平臺下載大模型時,有時會看到FP32、FP16、TF32、BF16等字眼,它們表示大模型的量化精度,通俗的解釋是用整數代替浮點數,以提高模型運算速度、減少存儲空間。
-
【蒸餾】:就是把已經充分訓練過的大模型的知識,讓“小模型”來學習,類似于“小人國”。從而改善運行效率,減少運行開銷。
-
【微調】:這里的微調更多是指優化的意思。有兩種方案:一種是基于LoRA的矩陣分解(可以把它比喻成用加法代替乘法,降低冗余但又不影響結果)的方式,另一種是基于Embedding的嵌入方式(可以把它理解為給大模型加個外G)。
-
【評測】:為了避免大模型一本正經地胡說八道,就需要一些評價指標來保證執行結果的正確性和合理性,目前比較有名的大模型專業評測機構包括國外的MMLU和國內的OpenCompass、FlagEval。
智能體
如果把大模型比作大腦的話,那么【智能體】就等于是給大腦加上了耳朵和嘴巴:有專門用來寫作的智能體,有專門用來編程的智能體,還有專門用來問診的智能體,這些都和行業有關。
當智能體多了以后,人們發現如果將他們“串聯”或“并聯”起來,就可以組成功能更強大的應用,于是就出現了【工作流】。
為了解決大模型無法克服的“幻覺”問題,人們再次給它加了一層外G,叫做【RAG】,相當于是讓大模型遇到不懂的問題時去查查字典。
為了滿足文、圖、音頻、視頻等互相轉化的能力,出現了【多模態】大模型。
前陣子比較火的Manus本質上也是智能體 + 工作流 + RAG + 多模態的【多智能體】混搭,并且賦予了它獨立訪問網絡,調用各種應用接口的能力。例如查詢天氣、航班、搜索網絡內容。它的創新點在于以一種非常直觀的形式將每一步的執行過程給展示了出來,并且任務分解的顆粒度合適,所以執行結果比較符合人們的期望。
社區
國外的大模型開發者們為了互相交流學習,整了一個叫做Hugging Face的社區,這里聚集了很多個人或組織訓練好的免費大模型。
阿里的Model Scope則是國內版的Hugging Face,類似的還有其他的一些。
但它們基本上只提供大模型的上傳、下載和托管,為了能夠實現在線調用大模型,又出現了OpenRouter(國外)和硅基流動(國內)這種能夠部署和調用大模型算力的平臺。本質上,它們就是個中介代理(類似于鏈家),既提供中介服務,也提供“自營”的房源(大模型算力)出租。
除了Hugging Face、Model Scope、OpenRouter和硅基流動,還有一種介于本地部署和網頁應用之間的大模型部署方式,這就是ollama和xinference,它們以類似于Docker的方式將大模型下載到本地,再通過它們暴露的端口來調用大模型的能力。
工具
在智能體里面,有做的非常出色的,比較有代表性的是早期的Kimi、豆包和扣子。
但是工程師們并不滿足于此,他們自己動手對接各種大模型接口,然后將這些接口封裝起來,形成了可以進行二次開發的大模型應用產品,其中最有代表性就是低代碼平臺Dify和更高級的開發框架LangChain,后起之秀CrewAI則是完全基于多智能體的應用開發組件。
而在開發側,出現了Claude、Cursor、Trae這種原生的AI開發IDE(一種集成開發工具),它們不再只是插件,而是一種全新的AI開發范式。