大模型應用-多模態和大模型是如何相互成就的

前言

如果單純的將大模型用來聊天,那就是low了。

而多模態賦予了大模型更多的現實價值,大模型則助力多模態變得更強大。

多模態

我們所處的是一個物理世界,不同事物之間模態多種多樣,即便是簡單的文本,按照語言,格式都可以分很多個模態。

在實際使用中,多模態的場景往往需要模型微調,才可能滿足需求。

我們這里還是主要看一下當前比較常用的基礎多模態和支持的模型。

模態場景模型備注
文本nlp:自然語言處理
nlu:自然語言理解
nlg:自然語言生成gpt-3.5-turbo
gpt-4
語音asr:語音轉文本
tts:文本轉語音國外:微軟,google平臺都很好用
國內:訊飛,Paddle等也很好語音一般都是轉成文本然后給到大模型
圖片文生圖
圖生文
圖編輯
圖檢索midjourney:最好的圖片生成工具,沒有之一
DALL·E:openai的模型,2和3都很好,功能強大
gpt-4-vision-preview:圖片理解的模型
VisualBERTImageBERT:圖片向量化圖片和大模型可以玩的很花,下面詳說
視頻文生視頻,視頻理解待sora問世視頻相關的結合較少,基建缺缺
代碼代碼生成和糾錯`Codex` 已集成到gpt的模型中現在的基礎大模型幾乎都具備編程能力,并且被廣泛集成到github copilotVS Code這類工具中
embeddingRAG:檢索增強開源的bert
openai的text-embedding-xxx系列
中文的m3e嚴格講這不算一個模態,但RAG往往被單拎出來用
審計內容審計相關的場景,用于檢測不安全內容openai的text-moderation-xx系列還記得我之前說的大模型安全問題嗎,使用審計模型也是一種方向

典型場景

1. 漫畫

我們可以利用大模型自動根據我們的劇情畫漫畫,它的實現流程大致如下:

  • 單智能體版本
  1. 創建一個漫畫家agent
  2. 給這個漫畫家添加一個文生圖的tool
  3. 給它一段段劇情,自動生成漫畫
  • 多智能體版本
  1. 創建一個漫畫家agent,創建一個作家agent
  2. 給這個漫畫家添加一個文生圖的tool,給作家一個ttstool。
  3. 給作家一段概要,作家自動生成一段段劇情,并生成對應的語音
  4. 漫畫家根據劇情畫出漫畫

2. 健身|減肥

在減肥的時候,是不是有這樣的煩惱,不知道自己吃的這頓飯有多少卡路里?

我們可以在吃飯前,把食物拍下來,然后用圖生文的能力解讀出,當前食物所含有的卡路里。

3. 醫療

我生病時,最頭疼的事情就是描述不出自己是什么病,也不知道用什么藥。

親身經歷:有次早晨醒來,發現后槽牙齦腫了,吃不了飯,當時不知道是智齒冠周炎,去醫院掛號排隊,搞了一下午,開了一堆藥。后來再出現這樣的情況,我就直接網購阿莫西林膠囊和甲硝唑口含片,基本一兩天就能好。省略一大筆冤枉錢和大把的時間。

現在想想,如果有大模型支持的醫療agent,借助圖搜圖的能力,我只需要對著口腔拍個照片,就能直接看病,抓藥。

4. 法律助手

這是一個典型的embedding功能,在langchain框架上有現成的功能。實際應用中是非常普遍和廣泛的。

比如當你在做某個事情,而不知道法律是如何規定的時候,用embedding功能對所有的法律條目進行召回,并用大模型進行總結和回復。

5. siri

這是一個較為復雜的場景,它集成蘋果手機的基礎功能,此時他的模態更加寬泛,是一個典型的大模型和多模態的應用場景。

尾語

多模態是大模型應用中不可缺少的部分。是更貼近應用的部分。

不同的應用場景需要不同的策略,可能是新舊技術的結合,也可能是完全新的領域,比如sora。多模態正在發力的路上,還需要我們更多的探索。

?

如何學習大模型

現在社會上大模型越來越普及了,已經有很多人都想往這里面扎,但是卻找不到適合的方法去學習。

作為一名資深碼農,初入大模型時也吃了很多虧,踩了無數坑。現在我想把我的經驗和知識分享給你們,幫助你們學習AI大模型,能夠解決你們學習中的困難。

我已將重要的AI大模型資料包括市面上AI大模型各大白皮書、AGI大模型系統學習路線、AI大模型視頻教程、實戰學習,等錄播視頻免費分享出來,需要的小伙伴可以掃取。

一、AGI大模型系統學習路線

很多人學習大模型的時候沒有方向,東學一點西學一點,像只無頭蒼蠅亂撞,我下面分享的這個學習路線希望能夠幫助到你們學習AI大模型。

在這里插入圖片描述

二、AI大模型視頻教程

在這里插入圖片描述

三、AI大模型各大學習書籍

在這里插入圖片描述

四、AI大模型各大場景實戰案例

在這里插入圖片描述

五、結束語

學習AI大模型是當前科技發展的趨勢,它不僅能夠為我們提供更多的機會和挑戰,還能夠讓我們更好地理解和應用人工智能技術。通過學習AI大模型,我們可以深入了解深度學習、神經網絡等核心概念,并將其應用于自然語言處理、計算機視覺、語音識別等領域。同時,掌握AI大模型還能夠為我們的職業發展增添競爭力,成為未來技術領域的領導者。

再者,學習AI大模型也能為我們自己創造更多的價值,提供更多的崗位以及副業創收,讓自己的生活更上一層樓。

因此,學習AI大模型是一項有前景且值得投入的時間和精力的重要選擇。

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/diannao/37884.shtml
繁體地址,請注明出處:http://hk.pswp.cn/diannao/37884.shtml
英文地址,請注明出處:http://en.pswp.cn/diannao/37884.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

【Docker0】網絡更改

目錄 1. 停止docker服務 2. 關閉docker默認橋接網絡接口 3. 從系統刪除docker0接口 4. 創建一個名為bridge0的新接口 5. 添加ip地址和子網掩碼 6. 啟用bridge0接口 7. (如果沒起來就執行該句) 8. 查看ip 1. 停止docker服務 sudo service docker…

c++用什么軟件編程?都有哪些?

c用什么軟件編程?都有哪些? C 作為一種高效、面向對象的編程語言,廣泛應用于軟件開發、游戲開發、嵌入式系統等領域。那么在進行 C 編程時,我們通常會使用哪些軟件呢?下面就來具體分析。 1. Visual Studio Visual Stu…

深入 SSH:解鎖本地轉發、遠程轉發和動態轉發的潛力

文章目錄 前言一、解鎖內部服務:SSH 本地轉發1.1 什么是 SSH 本地轉發1.2 本地轉發應用場景 二、打開外部訪問大門:SSH 遠程轉發2.1 什么是 SSH 遠程轉發2.2 遠程轉發應用場景 三、動態轉發:SSH 讓你擁有自己的 VPN3.1 什么是 SSH 動態轉發3.…

mysqldump全備份之后,如何只恢復一個庫或者一個表

在實際工作中,一個MySQL實例中可能有多個database。而我們備份時,通常采用完全備份,將所有database都備份到一個文件中。 但是,偶爾會遇到只恢復一個database或者一個表的情況。怎么解決呢? 一、利用全備恢復一個庫(database)的數據 案例:朋友在群里問, MySQL全庫備份…

memory動態內存管理學習之weak_ptr

此頭文件是動態內存管理庫的一部分。std::weak_ptr 是一種智能指針,它持有對被 std::shared_ptr 管理的對象的非擁有性(“弱”)引用。在訪問所引用的對象前必須先轉換為 std::shared_ptr。std::weak_ptr 用來表達臨時所有權的概念&#xff1a…

three.js實現雪花場景效果

點擊獲取雪花圖片素材 提取碼:lywa // 雪花效果 import * as THREE from "three" export function getsnowEffect(th) {console.log(th, th) // this 場景var that th// 創建一個BufferGeometry對象,用于存儲頂點數據 const geometry new THREE.Buffe…

Vim神兵:精通自定義補全規則

標題:Vim神兵:精通自定義補全規則 摘要 Vim作為Linux上最強大的文本編輯器之一,其補全功能可以極大提高編碼效率。本文將詳細探討如何在Vim中自定義補全規則,包括基本的補全設置、使用Vim腳本擴展補全功能,以及如何利…

大模型微調實戰之基于星火大模型的群聊對話分角色要素提取挑戰賽:Task01:跑通Baseline

目錄 0 背景1 環境配置1.1 下載包1.2 配置密鑰1.3 測試模型 2 解決問題2.1 獲取數據2.2 設計Prompt2.2 設計處理函數2.3 開始提取 附全流程代碼 0 背景 Datawhale AI夏令營第二期開始啦,去年有幸參與過第一期,收獲很多,這次也立馬參與了第二…

VMware ESXi 技術

目錄 一、VMware ESXi安裝 1. 在VMware WorkStation中創建一臺虛擬機 2. 進入VMware ESXi控制臺 3. 配置VMware ESXi網絡 二、使用Web網頁端登錄管理ESXi 1. 分配許可證密鑰(選做) 2. 管理ESXi 三、VMware ESXi控制臺 1. 創建虛擬機 2. 定制虛擬…

Webpack: 開發 PWA、Node、Electron 應用

概述 毋庸置疑,對前端開發者而言,當下正是一個日升月恒的美好時代!在久遠的過去,Web 頁面的開發技術鏈條非常原始而粗糙,那時候的 JavaScript 更多用來點綴 Web 頁面交互而不是用來構建一個完整的應用。直到 2009年5月…

LINUX操作系統:Mx Linux,用虛擬機VMware Workstation安裝體驗

需求說明: 操作系統目前流行有Windows、Linux、Unix等,中國人應該要知道國有操作系統,也要支持國產操作系統,為了更好支持國產操作系統,我們也要知己知彼,那么今天就來體驗一把操作系統Mx_Linux_23.2的安裝…

分享一個下載windows系統鏡像包的網站

下載各種操作系統(比如Windows、Linux、MacOS等)比較快的鏡像站點,我嘗試過這個不錯,提供了BT連接,可以用迅雷軟件下載,速度很快的! 入口地址:NEXT, ITELLYOU 1)打開網站…

[XYCTF新生賽2024] pwn

用了一周來復現crypto部分(不能算是復現,拿著 糖醋小雞塊的WP一點點學了下)。 兩天時間復現PWN部分。相對來說PWN比密碼這塊要簡單,不過ARM,MIPS懶得學了,跳過。 malloc_flag 題目先打開flag將建0x100的塊,然后把flag讀入再fre…

[深度學習] Transformer

Transformer是一種深度學習模型,最早由Vaswani等人在2017年的論文《Attention is All You Need》中提出。它最初用于自然語言處理(NLP)任務,但其架構的靈活性使其在許多其他領域也表現出色,如計算機視覺、時間序列分析…

MySQL高級-SQL優化- limit優化(覆蓋索引加子查詢)

文章目錄 0、limit 優化0.1、從表 tb_sku 中按照 id 列進行排序,然后跳過前 9000000 條記錄0.2、通過子查詢獲取按照 id 排序后的第 9000000 條開始的 10 條記錄的 id 值,然后在原表中根據這些 id 值獲取對應的完整記錄 1、上傳5個sql文件到 /root2、查看…

libctk shared library的設計及編碼實踐記錄

一、引言 1.1 <libctk>的由來 1.2 <libctk>的設計理論依據 1.3 <libctk>的設計理念 二、<libctk>的依賴庫 三、<libctk>的目錄說明 四、<libctk>的功能模塊及使用實例說明 4.1 日志模塊 4.2 mysql client模塊 4.3 ftp client模塊 4…

鴻蒙開發設備管理:【@ohos.geolocation (位置服務)】

位置服務 說明&#xff1a; 本模塊首批接口從API version 7開始支持。后續版本的新增接口&#xff0c;采用上角標單獨標記接口的起始版本。 導入模塊 import geolocation from ohos.geolocation;geolocation.on(‘locationChange’) on(type: ‘locationChange’, request: L…

安卓開發自定義時間日期顯示組件

安卓開發自定義時間日期顯示組件 問題背景 實現時間和日期顯示&#xff0c;左對齊和對齊兩種效果&#xff0c;如下圖所示&#xff1a; 問題分析 自定義view實現一般思路&#xff1a; &#xff08;1&#xff09;自定義一個View &#xff08;2&#xff09;編寫values/attrs.…

poi-tl 生成 word 文件(插入文字、圖片、表格、圖表)

文章說明 本篇文章主要通過代碼案例的方式&#xff0c;展示 poi-tl 生成 docx 文件的一些常用操作&#xff0c;主要涵蓋以下內容 &#xff1a; 插入文本字符&#xff08;含樣式、超鏈接&#xff09;插入圖片插入表格引入標簽&#xff08;通過可選文字的方式&#xff0c;這種方…

俄羅斯防空系統

俄羅斯的S系列防空系統是一系列先進的地對空導彈系統&#xff0c;旨在防御各類空中威脅&#xff0c;包括飛機、無人機、巡航導彈和彈道導彈。以下是幾種主要的S系列防空系統&#xff1a; 1. **S-300系統**&#xff1a; - **S-300P**&#xff1a;最早期的版本&#xff0c;用…