前言
如果單純的將大模型用來聊天,那就是low了。
而多模態賦予了大模型更多的現實價值,大模型則助力多模態變得更強大。
多模態
我們所處的是一個物理世界,不同事物之間模態多種多樣,即便是簡單的文本,按照語言,格式都可以分很多個模態。
在實際使用中,多模態的場景往往需要模型微調,才可能滿足需求。
我們這里還是主要看一下當前比較常用的基礎多模態和支持的模型。
模態 | 場景 | 模型 | 備注 |
---|---|---|---|
文本 | nlp:自然語言處理 | ||
nlu:自然語言理解 | |||
nlg:自然語言生成 | gpt-3.5-turbo | ||
gpt-4 | |||
語音 | asr:語音轉文本 | ||
tts:文本轉語音 | 國外:微軟,google平臺都很好用 | ||
國內:訊飛,Paddle等也很好 | 語音一般都是轉成文本然后給到大模型 | ||
圖片 | 文生圖 | ||
圖生文 | |||
圖編輯 | |||
圖檢索 | midjourney :最好的圖片生成工具,沒有之一 | ||
DALL·E :openai的模型,2和3都很好,功能強大 | |||
gpt-4-vision-preview :圖片理解的模型 | |||
VisualBERT 和ImageBERT :圖片向量化 | 圖片和大模型可以玩的很花,下面詳說 | ||
視頻 | 文生視頻,視頻理解 | 待sora問世 | 視頻相關的結合較少,基建缺缺 |
代碼 | 代碼生成和糾錯 | `Codex` 已集成到gpt的模型中 | 現在的基礎大模型幾乎都具備編程能力,并且被廣泛集成到github copilot ,VS Code 這類工具中 |
embedding | RAG:檢索增強 | 開源的bert | |
openai的text-embedding-xxx 系列 | |||
中文的m3e | 嚴格講這不算一個模態,但RAG往往被單拎出來用 | ||
審計 | 內容審計相關的場景,用于檢測不安全內容 | openai的text-moderation-xx 系列 | 還記得我之前說的大模型安全問題嗎,使用審計模型也是一種方向 |
典型場景
1. 漫畫
我們可以利用大模型自動根據我們的劇情畫漫畫,它的實現流程大致如下:
- 單智能體版本
- 創建一個漫畫家
agent
- 給這個漫畫家添加一個
文生圖
的tool - 給它一段段劇情,自動生成漫畫
- 多智能體版本
- 創建一個漫畫家
agent
,創建一個作家agent
- 給這個漫畫家添加一個
文生圖
的tool,給作家一個tts
tool。 - 給作家一段概要,作家自動生成一段段劇情,并生成對應的語音
- 漫畫家根據劇情畫出漫畫
2. 健身|減肥
在減肥的時候,是不是有這樣的煩惱,不知道自己吃的這頓飯有多少卡路里?
我們可以在吃飯前,把食物拍下來,然后用圖生文
的能力解讀出,當前食物所含有的卡路里。
3. 醫療
我生病時,最頭疼的事情就是描述不出自己是什么病,也不知道用什么藥。
親身經歷:有次早晨醒來,發現后槽牙齦腫了,吃不了飯,當時不知道是智齒冠周炎,去醫院掛號排隊,搞了一下午,開了一堆藥。后來再出現這樣的情況,我就直接網購阿莫西林膠囊和甲硝唑口含片,基本一兩天就能好。省略一大筆冤枉錢和大把的時間。
現在想想,如果有大模型支持的醫療agent
,借助圖搜圖
的能力,我只需要對著口腔拍個照片,就能直接看病,抓藥。
4. 法律助手
這是一個典型的embedding
功能,在langchain
框架上有現成的功能。實際應用中是非常普遍和廣泛的。
比如當你在做某個事情,而不知道法律是如何規定的時候,用embedding
功能對所有的法律條目進行召回,并用大模型進行總結和回復。
5. siri
這是一個較為復雜的場景,它集成蘋果手機的基礎功能,此時他的模態更加寬泛,是一個典型的大模型和多模態的應用場景。
尾語
多模態是大模型應用中不可缺少的部分。是更貼近應用的部分。
不同的應用場景需要不同的策略,可能是新舊技術的結合,也可能是完全新的領域,比如sora。多模態正在發力的路上,還需要我們更多的探索。
?
如何學習大模型
現在社會上大模型越來越普及了,已經有很多人都想往這里面扎,但是卻找不到適合的方法去學習。
作為一名資深碼農,初入大模型時也吃了很多虧,踩了無數坑。現在我想把我的經驗和知識分享給你們,幫助你們學習AI大模型,能夠解決你們學習中的困難。
我已將重要的AI大模型資料包括市面上AI大模型各大白皮書、AGI大模型系統學習路線、AI大模型視頻教程、實戰學習,等錄播視頻免費分享出來,需要的小伙伴可以掃取。

一、AGI大模型系統學習路線
很多人學習大模型的時候沒有方向,東學一點西學一點,像只無頭蒼蠅亂撞,我下面分享的這個學習路線希望能夠幫助到你們學習AI大模型。
二、AI大模型視頻教程
三、AI大模型各大學習書籍
四、AI大模型各大場景實戰案例
五、結束語
學習AI大模型是當前科技發展的趨勢,它不僅能夠為我們提供更多的機會和挑戰,還能夠讓我們更好地理解和應用人工智能技術。通過學習AI大模型,我們可以深入了解深度學習、神經網絡等核心概念,并將其應用于自然語言處理、計算機視覺、語音識別等領域。同時,掌握AI大模型還能夠為我們的職業發展增添競爭力,成為未來技術領域的領導者。
再者,學習AI大模型也能為我們自己創造更多的價值,提供更多的崗位以及副業創收,讓自己的生活更上一層樓。
因此,學習AI大模型是一項有前景且值得投入的時間和精力的重要選擇。