GPT垂直領域相關模型 現有的開源領域大模型

對于ToC端來說,廣大群眾的口味已經被ChatGPT給養叼了,市場基本上被ChatGPT吃的干干凈凈。雖然國內大廠在緊追不舍,但目前絕大多數都還在實行內測機制,大概率是不會廣泛開放的(畢竟,各大廠還是主盯ToB、ToG市場的,從華為在WAIC的匯報就可以看出)。而對于ToB和ToG端來說,本地化部署、領域or行業內效果絕群、國產化無疑就成為了重要的考核指標。

個人覺得垂直領域大模型或者說大模型領域化、行業化才是大模型落地的核心要素。恰好前幾天ChatLaw(一款法律領域大模型產品)也是大火,當時也是拿到了一手內測資格測試了一陣,也跟該模型的作者聊了很久。正好利用周末的時間,好好思考、梳理、匯總了一些垂直領域大模型內容。

文章內容將從ChatLaw展開到垂直領域大模型的一些討論最后匯總一下現有的開源領域大模型

聊聊對ChatLaw的看法

ChatLaw的出現,讓我更加肯定未來大模型落地需要具有領域特性。相較于目前領域大模型,ChatLaw不僅僅是一個模型,而是一個經過設計的大模型領域產品,已經在法律領域具有很好的產品形態。

Paper:?https://arxiv.org/pdf/2306.16092.pdf

Github:?https://github.com/PKU-YuanGroup/ChatLaw官網:?https://www.chatlaw.cloud/

可能會有一些質疑,比如:不就是一個langchain嗎?法律領域它能保證事實性問題嗎?等等等。但,我覺得在否定一件事物的前提,是先去更深地了解它

ChatLaw共存在兩種模式:普通模型和專業模型。普通模式就是僅基于大模型進行問答。

而專業模式是借助檢索的手段,對用戶查詢進行匹配從知識庫中篩選出合適的證據,再根據大模型匯總能力,得到最終答案。

由于專業模式,借助了知識庫的內容,也會使得用戶得到的效果更加精準。而在專業版中,ChatLaw制定了一整套流程,如上圖所示,存在反問提示進行信息補全,用戶信息確認、相似案例檢索、建議匯總等。

作者@JessyTsui(知乎) 也說過,其實ChatLaw=ChatLaw LLM + keyword LLM + laws LLM。而keyword LLM真的讓我眼前一亮的,之前對關鍵詞抽取的理解,一直是從文本中找到正確的詞語,在傳統檢索中使用同義詞等方法來提高檢索效果。而keyword LLM利用大模型生成關鍵詞,不僅可以找到文本中的重點內容,還可以總結并釋義出一些詞。使得整個產品在檢索證據內容時,效果更加出色。

深度學習自然語言處理, 垂直領域大模型的一些思考及開源模型匯總

同時,由于不同模型對不同類型問題解決效果并不相同,所以在真正使用階段,采用HuggingGPT作為調度器的方式,在每次用戶請求的時候去選擇調用更加適配的模型。也就是讓適合的模型做更適合的事情

聊聊對垂直領域大模型的看法

現在大模型的使用主要就是兩種模型,第一種是僅利用大模型本身解決用戶問題;第二種就是借助外部知識來解決用戶問題。而我個人覺得是“借助外部知識進行問答”才是未來,雖然會對模型推理增加額外成本,但是外部知識是緩解模型幻覺的有效方法。

但隨著通用大模型底層能力越來越強,以及可接受文本越來越長,在解決垂直領域問題時,完全可以采用ICL技術,來提升通用大模型在垂直領域上的效果,那么訓練一個垂直領域大模型是否是一個偽命題,我們還有必要做嗎?

個人認為是需要的,從幾個方面來討論:

  • 1、個人覺得真正垂直領域大模型的做法,應該從Pre-Train做起。SFT只是激發原有大模型的能力,預訓練才是真正知識灌輸階段,讓模型真正學習領域數據知識,做到適配領域。但目前很多垂直領域大模型還停留在SFT階段。

  • 2、對于很多企業來說,領域大模型在某幾個能力上絕群就可以了。難道我能源行業,還需要care模型詩寫的如何嗎?所以領域大模型在行業領域上效果是優于通用大模型即可,不需要“即要又要還要”。

  • 3、不應某些垂直領域大模型效果不如ChatGPT,就否定垂直領域大模型。有沒有想過一件可怕的事情,ChatGPT見的垂直領域數據,比你的領域大模型見的還多。但某些領域數據,ChatGPT還是見不到的。

  • 4、考慮到部署成本得問題,我覺得在7B、13B兩種規模的參數下,通用模型真地干不過領域模型。及時175B的領域大模型沒有打過175B的通用模型又能怎么樣呢?模型參數越大,需要數據量越大,領域可能真的沒有那么多數據。

PS:很多非NLP算法人員對大模型產品落地往往會有一些疑問:?

Q:我有很多的技術標準和領域文本數據,直接給你就能訓練領域大模型了吧??

A:是也不是,純文本只能用于模型的預訓練,真正可以進行后續問答,需要的是指令數據。當然可以采用一些人工智能方法生成一些指數據,但為了保證事實性,還是需要進行人工校對的。高質量SFT數據,才是模型微調的關鍵。?

Q:你用領域數據微調過的大模型,為什么不直接問答,還要用你的知識庫??

A:外部知識主要是為了解決模型幻覺、提高模型回復準確。?

Q:為什么兩次回復結果不一樣??

A:大模型一般為了保證多樣性,解碼常采用Top-P、Top-K解碼,這種解碼會導致生成結果不可控。如果直接采用貪婪解碼,模型生成結果會是局部最優。?

Q:我是不是用開源6B、7B模型自己訓練一個模型就夠了??

A:兄弟,沒有訓練過33B模型的人,永遠只覺得13B就夠了。

以上是個人的一些想法,以及一些常見問題的回復,不喜勿噴,歡迎討論,畢竟每個人對每件事的看法都不同。

開源垂直領域大模型匯總

目前有很多的垂直領域大模型已經開源,主要在醫療、金融、法律、教育等領域,本小節主要進行「中文開源」模型的匯總及介紹。

「PS:一些領域大模型,如未開源不在該匯總范圍內;并且歡迎大家留言,查缺補漏。」

醫療領域

非中文項目:BioMedLM、PMC-LLaMA、ChatDoctor、BioMedGPT等,在此不做介紹。

MedicalGPT-zh

Github:?https://github.com/MediaBrain-SJTU/MedicalGPT-zh

  • 簡介:基于ChatGLM-6B指令微調的中文醫療通用模型。

  • 數據:通過對16組診療情景和28個科室醫用指南借助ChatGPT構造182k條數據。數據也已開源。

  • 訓練方法:基于ChatGLM-6B,采用Lora&16bit方法進行模型訓練。

DoctorGLM

Github:?https://github.com/xionghonglin/DoctorGLM

  • 簡介:一個基于ChatGLM-6B的中文問診模型。

  • 數據:主要采用CMD(Chinese Medical Dialogue Data)數據。

  • 訓練方法:基于ChatGLM-6B模型,采用Lora和P-tuning-v2兩種方法進行模型訓練。

PS:數據來自Chinese-medical-dialogue-data項目。

Huatuo-Llama-Med-Chinese

Github:?https://github.com/SCIR-HI/Huatuo-Llama-Med-Chinese

  • 簡介:本草(原名:華駝-HuaTuo): 基于中文醫學知識的LLaMA微調模型。

  • 數據:通過醫學知識圖譜和GPT3.5 API構建了中文醫學指令數據集,數據共開源9k條。

  • 訓練方法:基于Llama-7B模型,采用Lora方法進行模型訓練。

Med-ChatGLM

Github:?https://github.com/SCIR-HI/Med-ChatGLM

  • 簡介:基于中文醫學知識的ChatGLM模型微調,與本草為兄弟項目。

  • 數據:與Huatuo-Llama-Med-Chinese相同。

  • 訓練方法:基于ChatGLM-6B模型,采用Lora方法進行模型訓練。

ChatMed

Github:?https://github.com/michael-wzhu/ChatMed

  • 簡介:中文醫療大模型,善于在線回答患者/用戶的日常醫療相關問題.

  • 數據:50w+在線問診+ChatGPT回復作為訓練集。

  • 訓練方法:基于Llama-7B模型,采用Lora方法進行模型訓練。

ShenNong-TCM-LLM

Github:?https://github.com/michael-wzhu/ShenNong-TCM-LLM

  • 簡介:“神農”大模型,首個中醫藥中文大模型,與ChatMed為兄弟項目。

  • 數據:以中醫藥知識圖譜為基礎,采用以實體為中心的自指令方法,調用ChatGPT得到11w+的圍繞中醫藥的指令數據。

  • 訓練方法:基于Llama-7B模型,采用Lora方法進行模型訓練。

BianQue

Github:?https://github.com/scutcyr/BianQue

  • 簡介:扁鵲,中文醫療對話模型。

  • 數據:結合當前開源的中文醫療問答數據集(MedDialog-CN、IMCS-V2、CHIP-MDCFNPC、MedDG、cMedQA2、Chinese-medical-dialogue-data),分析其中的單輪/多輪特性以及醫生問詢特性,結合實驗室長期自建的生活空間健康對話大數據,構建了千萬級別規模的扁鵲健康大數據BianQueCorpus。

  • 訓練方法:扁鵲-1.0以ChatYuan-large-v2作為底座模型全量參數訓練得來,扁鵲-2.0以ChatGLM-6B作為底座模型全量參數訓練得來。

SoulChat

Github:?https://github.com/scutcyr/SoulChat

  • 簡介:中文領域心理健康對話大模型,與BianQue為兄弟項目。

  • 數據:構建了超過15萬規模的單輪長文本心理咨詢指令數據,并利用ChatGPT與GPT4,生成總共約100萬輪次的多輪回答數據。

  • 訓練方法:基于ChatGLM-6B模型,采用全量參數微調方法進行模型訓練。

法律領域

LaWGPT

Github:?https://github.com/pengxiao-song/LaWGPT

  • 簡介:基于中文法律知識的大語言模型。

  • 數據:基于中文裁判文書網公開法律文書數據、司法考試數據等數據集展開,利用Stanford_alpaca、self-instruct方式生成對話問答數據,利用知識引導的數據生成,引入ChatGPT清洗數據,輔助構造高質量數據集。

  • 訓練方法:(1)Legal-Base-7B模型:法律基座模型,使用50w中文裁判文書數據二次預訓練。(2)LaWGPT-7B-beta1.0模型:法律對話模型,構造30w高質量法律問答數據集基于Legal-Base-7B指令精調。(3)LaWGPT-7B-alpha模型:在Chinese-LLaMA-7B的基礎上直接構造30w法律問答數據集指令精調。(4)LaWGPT-7B-beta1.1模型:法律對話模型,構造35w高質量法律問答數據集基于Chinese-alpaca-plus-7B指令精調。

ChatLaw

Github:?https://github.com/PKU-YuanGroup/ChatLaw

  • 簡介:中文法律大模型

  • 數據:主要由論壇、新聞、法條、司法解釋、法律咨詢、法考題、判決文書組成,隨后經過清洗、數據增強等來構造對話數據。

  • 訓練方法:(1)ChatLaw-13B:基于姜子牙Ziya-LLaMA-13B-v1模型采用Lora方式訓練而來。(2)ChatLaw-33B:基于Anima-33B采用Lora方式訓練而來。

LexiLaw

Github:?https://github.com/CSHaitao/LexiLaw

  • 簡介:中文法律大模型

  • 數據:BELLE-1.5M通用數據、LawGPT項目中52k單輪問答數據和92k帶有法律依據的情景問答數據、Lawyer LLaMA項目中法考數據和法律指令微調數據、華律網20k高質量問答數據、百度知道收集的36k條法律問答數據、法律法規、法律參考書籍、法律文書。

  • 訓練方法:基于ChatGLM-6B模型,采用Freeze、Lora、P-Tuning-V2三種方法進行模型訓練。

LAW-GPT

Github:?https://github.com/LiuHC0428/LAW-GPT

  • 簡介:中文法律大模型(獬豸)

  • 數據:現有的法律問答數據集和基于法條和真實案例指導的self-Instruct構建的高質量法律文本問答數據。

  • 訓練方法:基于ChatGLM-6B,采用Lora&16bit方法進行模型訓練。

lawyer-llama

Github:?https://github.com/AndrewZhe/lawyer-llama

  • 簡介:中文法律LLaMA

  • 數據:法考數據7k、法律咨詢數據14k

  • 訓練方法:以Chinese-LLaMA-13B為底座,未經過法律語料continual training,使用通用instruction和法律instruction進行SFT。

金融領域

非中文較好的項目:BloombergGPT、PIXIU等,在此不做介紹。

FinGPT

Github:?https://github.com/AI4Finance-Foundation/FinGPT

  • 簡介:金融大模型

  • 數據:來自東方財富

  • 訓練方法:基于ChatGLM-6B,采用Lora方法訓練模型。

FinTuo

Github:?https://github.com/qiyuan-chen/FinTuo-Chinese-Finance-LLM

  • 簡介:一個中文金融大模型項目,旨在提供開箱即用且易于拓展的金融領域大模型工具鏈。

  • 數據:暫未完成。

  • 訓練方法:暫未完成。

教育領域

EduChat

Github:?https://github.com/icalk-nlp/EduChat

  • 簡介:以預訓練大模型為基底的教育對話大模型相關技術,提供教育場景下自動出題、作業批改、情感支持、課程輔導、高考咨詢等豐富功能,服務于廣大老師、學生和家長群體,助力實現因材施教、公平公正、富有溫度的智能教育。

  • 數據:混合多個開源中英指令、對話數據,并去重后得到,約400w。

  • 訓練方法:基于LLaMA模型訓練而來。

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/news/38678.shtml
繁體地址,請注明出處:http://hk.pswp.cn/news/38678.shtml
英文地址,請注明出處:http://en.pswp.cn/news/38678.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

C/C++ 注意點補充

C/C 注意點補充 函數缺省 函數缺省 https://blog.csdn.net/xinger_28/article/details/83898804 // 是的,C語言中的函數不支持直接定義缺省參數。在你提供的代碼中,函數DelayXms沒有定義缺省參數。缺省參數只在一些高級編程語言中(如C&…

flutter

1.dart語言學習 dart在線編輯器 //第一段dart代碼 void main() {ceshi c new ceshi(1,2);print(c.right);c.right 2;print(c.right);print(c.bottom);c.bottom 4;print(c.bottom); }class ceshi {num left, top;ceshi(this.left, this.top);num get right > left top;…

視頻集中存儲安防監控平臺EasyCVR優化AI硬件接入時的通道顯示異常問題

安防視頻監控平臺視頻集中存儲EasyCVR可拓展性強、視頻能力靈活、部署輕快,可支持的主流標準協議有國標GB28181、RTSP/Onvif、RTMP等,以及支持廠家私有協議與SDK接入,包括海康Ehome、海大宇等設備的SDK等。 安防監控視頻云存儲平臺EasyCVR既具…

【Python國內源】pip換源終極方法【Windows】

1、為什么要pip換源下載 安裝第三方庫時,很多庫來自于國外,下載速度慢得感人! 2、常見的國內源 https://pypi.tuna.tsinghua.edu.cn/simple #清華 http://mirrors.aliyun.com/pypi/simple/ #阿里云 https://pypi.mirrors.ustc.e…

go_細節注意

go細節 一、使用指針接受者和不使用指針接受者1,不使用指針接受者:2,使用指針接受者3,區別與優劣勢 一、使用指針接受者和不使用指針接受者 1,不使用指針接受者: func (d dog) move() {fmt.Println("…

使用Logstash將數據從MySQL同步至Elasticsearch(有坑)

文章目錄 一、準備工作1、安裝elasticSearchkibana2、安裝MySQL3、安裝Logstash 二、全量同步1、準備MySQL數據與表2、上傳mysql-connector-java.jar3、啟動Logstash4、修改logstash.conf文件5、修改full_jdbc.sql文件6、打開Kibana創建索引和映射7、重啟logstash進行全量同步8…

TCP/IP協議追層分析物理層(第三十九課)

TCP/IP協議追層分析物理層(第三十九課) 1 物理層:建立、維護、斷開物理連接,定義了接口及介質,實現了比特流的傳輸。 1、傳輸介質分類 有線介質:網線(雙絞線)、光纖 無線介質:無線電 微波 激光 紅外線 2、雙絞線分類: 五類cat5: 適用于100Mbps 超五類cat5e:適用于…

Qt掃盲- Graphics View框架理論綜述

Graphics View框架理論綜述 一、概述二、Graphics View 體系結構1. The Scene2. The View3. 圖元 Item 三、圖形視圖坐標系統1. 圖元Item的坐標2. Scene Scene坐標3. View 視圖坐標4. 坐標映射 四、關鍵特性1. 縮放和旋轉2. 打印3. 拖放4. 鼠標指針和 提示5. 動畫6. OpenGL渲染…

【100天精通python】Day35:一文掌握GUI界面編程基本操作

目錄 專欄導讀 1 GUI 編程概述 1.1 為什么需要GUI? 1.2 常見的GUI編程工具和庫 1.3 GUI應用程序的組成和架構 2 使用Tkinter 庫 進行GUI編程 2.1 使用Tkinter庫進行GUI編程的基本流程 2.2 使用Tkinter庫進行GUI編程 2.2.1 導入Tkinter庫 2.2.2 添加標簽和…

繪制世界地圖or中國地圖

寫在前面 在8月初,自己需要使用中國地圖的圖形,自己就此也查詢相關的教程,自己也做一下小小總結,希望對自己和同學們有所幫助。 最終圖形 這個系列從2022年開始,一直更新使用R語言分析數據及繪制精美圖形。小杜的生信筆記主要分享小杜學習日常!如果,你對此感興趣可以加…

Flutter Engine編譯環境安裝

前言 根據設置引擎開發環境的描述,確保有以下可用依賴項: Linux、macOS 或 Windows。 Linux 支持 Android 和 Fuchsia 的交叉編譯工件,但不支持 iOS。macOS 支持 Android 和 iOS 的交叉編譯工件。Windows 不支持任何 Android、Fuchsia 或 i…

MySQL存儲結構及索引

文章目錄 MySQL結構1.2存儲引擎介紹1.3存儲引擎特點InnoDB邏輯存儲結構 MyISAMMemory區別及特點存儲引擎選擇 索引索引概述索引結構BTreeHash索引分類聚集索引&二級索引索引語法SQL性能分析索引優化最左前綴法則范圍查詢字符串不加引號模糊查詢or連接條件數據分布影響覆蓋索…

達夢數據庫dbms_stats包的操作實踐記錄

索引的統計信息收集 GATHER_INDEX_STATSindex_stats_show 根據模式名,索引名獲得該索引的統計信息。用于經過 GATHER_TABLE_STATS、GATHER_INDEX_STATS 或 GATHER_SCHEMA_STATS 收集之后展示。返回兩個結果集:一個是索引的統計信息;另一個是…

Kotlin優點及為什么使用Kotlin

文章目錄 一 Hello Kotlin二 Kotlin優點三 團隊為什么采用 Kotlin 一 Hello Kotlin Kotlin和Andriod 二 Kotlin優點 三 團隊為什么采用 Kotlin

如何從PHP 獲取絕對路徑、文檔根目錄、基本 URL

根據您的服務器配置,獲取正確的路徑信息可能具有挑戰性。例如,PHP 并沒有直接提供一個變量來返回站點基本 URL。以下是一些代碼片段,可以幫助您獲取絕對路徑、文檔根目錄和基本 URL。 獲取絕對路徑 如果您的腳本位于 /path/directory/ 目錄中,您可以使用以下代碼片段來獲…

Mendix 基礎審計模塊介紹

一、前言 作為售前顧問,幫助客戶選型低代碼產品是日常工作。考察一家低代碼產品的好壞,其中一個維度就是產品的成熟度。產品成熟度直接影響產品在使用中的穩定性和用戶體驗,對于新工具導入和可持續運用至關重要。 那怎么考察一個產品是否成…

【校招VIP】java語言考點之ConcurrentHashMap1.7和1.8

考點介紹: ConcurrentHashMap是JAVA校招面試的熱門考點,主要集中在1.7和1.8的底層結構和相關的性能提高。 理解這個考點要從map本身的并發問題出發,再到hashTable的低性能并發安全,引申到ConcurrentHashMap的分塊處理。同時要理解…

JAVA工具類Collections

// 【Collections】:集合的工具類 對集合進行排序 主要針對類類型 // 使用sort方法 // 1. 在需要排序的實體類中實現 Comparable接口 重寫compareTo方法 // 1.動態綁定 向下轉型 // 2.基本數據類型 this.id-s1.id 升序 // 3.類類型 this.n…

【C++】做一個飛機空戰小游戲(八)——生成敵方炮彈(rand()和srand()函數應用)

[導讀]本系列博文內容鏈接如下: 【C】做一個飛機空戰小游戲(一)——使用getch()函數獲得鍵盤碼值 【C】做一個飛機空戰小游戲(二)——利用getch()函數實現鍵盤控制單個字符移動【C】做一個飛機空戰小游戲(三)——getch()函數控制任意造型飛機圖標移動 【C】做一個飛…

SpringBoot中的可擴展接口

目錄 # 背景 # 可擴展的接口啟動調用順序圖 # ApplicationContextInitializer # BeanDefinitionRegistryPostProcessor # BeanFactoryPostProcessor # InstantiationAwareBeanPostProcessor # SmartInstantiationAwareBeanPostProcessor # BeanFactoryAware # Applicati…