大模型應用-多模態和大模型是如何相互成就的

前言

如果單純的將大模型用來聊天，那就是low了。

而多模態賦予了大模型更多的現實價值，大模型則助力多模態變得更強大。

多模態

我們所處的是一個物理世界，不同事物之間模態多種多樣，即便是簡單的文本，按照語言，格式都可以分很多個模態。

在實際使用中，多模態的場景往往需要模型微調，才可能滿足需求。

我們這里還是主要看一下當前比較常用的基礎多模態和支持的模型。

模態	場景	模型	備注
文本	nlp：自然語言處理
nlu:自然語言理解
nlg:自然語言生成	`gpt-3.5-turbo`
`gpt-4`
語音	asr：語音轉文本
tts：文本轉語音	國外：微軟，google平臺都很好用
國內：訊飛，Paddle等也很好	語音一般都是轉成文本然后給到大模型
圖片	文生圖
圖生文
圖編輯
圖檢索	`midjourney`:最好的圖片生成工具，沒有之一
`DALL·E`:openai的模型，2和3都很好，功能強大
`gpt-4-vision-preview`:圖片理解的模型
`VisualBERT`和`ImageBERT`：圖片向量化	圖片和大模型可以玩的很花，下面詳說
視頻	文生視頻，視頻理解	待sora問世	視頻相關的結合較少，基建缺缺
代碼	代碼生成和糾錯	_`Codex` 已集成到gpt的模型中	現在的基礎大模型幾乎都具備編程能力，并且被廣泛集成到`github copilot`，`VS Code`這類工具中
embedding	RAG:檢索增強	開源的`bert`
openai的`text-embedding-xxx`系列
中文的`m3e`	嚴格講這不算一個模態，但RAG往往被單拎出來用
審計	內容審計相關的場景，用于檢測不安全內容	openai的`text-moderation-xx`系列	還記得我之前說的大模型安全問題嗎，使用審計模型也是一種方向

典型場景

1. 漫畫

我們可以利用大模型自動根據我們的劇情畫漫畫，它的實現流程大致如下：

單智能體版本

創建一個漫畫家agent
給這個漫畫家添加一個文生圖的tool
給它一段段劇情，自動生成漫畫

多智能體版本

創建一個漫畫家agent，創建一個作家agent
給這個漫畫家添加一個文生圖的tool，給作家一個ttstool。
給作家一段概要，作家自動生成一段段劇情，并生成對應的語音
漫畫家根據劇情畫出漫畫

2. 健身|減肥

在減肥的時候，是不是有這樣的煩惱，不知道自己吃的這頓飯有多少卡路里？

我們可以在吃飯前，把食物拍下來，然后用圖生文的能力解讀出，當前食物所含有的卡路里。

3. 醫療

我生病時，最頭疼的事情就是描述不出自己是什么病，也不知道用什么藥。

親身經歷：有次早晨醒來，發現后槽牙齦腫了，吃不了飯，當時不知道是智齒冠周炎，去醫院掛號排隊，搞了一下午，開了一堆藥。后來再出現這樣的情況，我就直接網購阿莫西林膠囊和甲硝唑口含片，基本一兩天就能好。省略一大筆冤枉錢和大把的時間。

現在想想，如果有大模型支持的醫療agent，借助圖搜圖的能力，我只需要對著口腔拍個照片，就能直接看病，抓藥。

4. 法律助手

這是一個典型的embedding功能，在langchain框架上有現成的功能。實際應用中是非常普遍和廣泛的。

比如當你在做某個事情，而不知道法律是如何規定的時候，用embedding功能對所有的法律條目進行召回，并用大模型進行總結和回復。

5. siri

這是一個較為復雜的場景，它集成蘋果手機的基礎功能，此時他的模態更加寬泛，是一個典型的大模型和多模態的應用場景。

尾語

多模態是大模型應用中不可缺少的部分。是更貼近應用的部分。

不同的應用場景需要不同的策略，可能是新舊技術的結合，也可能是完全新的領域，比如sora。多模態正在發力的路上，還需要我們更多的探索。

如何學習大模型

現在社會上大模型越來越普及了，已經有很多人都想往這里面扎，但是卻找不到適合的方法去學習。

作為一名資深碼農，初入大模型時也吃了很多虧，踩了無數坑。現在我想把我的經驗和知識分享給你們，幫助你們學習AI大模型，能夠解決你們學習中的困難。

我已將重要的AI大模型資料包括市面上AI大模型各大白皮書、AGI大模型系統學習路線、AI大模型視頻教程、實戰學習，等錄播視頻免費分享出來，需要的小伙伴可以掃取。

一、AGI大模型系統學習路線

很多人學習大模型的時候沒有方向，東學一點西學一點，像只無頭蒼蠅亂撞，我下面分享的這個學習路線希望能夠幫助到你們學習AI大模型。

在這里插入圖片描述

二、AI大模型視頻教程

在這里插入圖片描述

三、AI大模型各大學習書籍

在這里插入圖片描述

四、AI大模型各大場景實戰案例

在這里插入圖片描述

五、結束語

學習AI大模型是當前科技發展的趨勢，它不僅能夠為我們提供更多的機會和挑戰，還能夠讓我們更好地理解和應用人工智能技術。通過學習AI大模型，我們可以深入了解深度學習、神經網絡等核心概念，并將其應用于自然語言處理、計算機視覺、語音識別等領域。同時，掌握AI大模型還能夠為我們的職業發展增添競爭力，成為未來技術領域的領導者。

再者，學習AI大模型也能為我們自己創造更多的價值，提供更多的崗位以及副業創收，讓自己的生活更上一層樓。

因此，學習AI大模型是一項有前景且值得投入的時間和精力的重要選擇。

本文來自互聯網用戶投稿，該文觀點僅代表作者本人，不代表本站立場。本站僅提供信息存儲空間服務，不擁有所有權，不承擔相關法律責任。
如若轉載，請注明出處：http://www.pswp.cn/diannao/37884.shtml
繁體地址，請注明出處：http://hk.pswp.cn/diannao/37884.shtml
英文地址，請注明出處：http://en.pswp.cn/diannao/37884.shtml

如若內容造成侵權/違法違規/事實不符，請聯系多彩編程網進行投訴反饋email:809451989@qq.com，一經查實，立即刪除！