法律領域
LaWGPT
Github:?https://github.com/pengxiao-song/LaWGPT
-
簡介:基于中文法律知識的大語言模型。
-
數據:基于中文裁判文書網公開法律文書數據、司法考試數據等數據集展開,利用Stanford_alpaca、self-instruct方式生成對話問答數據,利用知識引導的數據生成,引入ChatGPT清洗數據,輔助構造高質量數據集。
-
訓練方法:(1)Legal-Base-7B模型:法律基座模型,使用50w中文裁判文書數據二次預訓練。(2)LaWGPT-7B-beta1.0模型:法律對話模型,構造30w高質量法律問答數據集基于Legal-Base-7B指令精調。(3)LaWGPT-7B-alpha模型:在Chinese-LLaMA-7B的基礎上直接構造30w法律問答數據集指令精調。(4)LaWGPT-7B-beta1.1模型:法律對話模型,構造35w高質量法律問答數據集基于Chinese-alpaca-plus-7B指令精調。
ChatLaw
Github:?https://github.com/PKU-YuanGroup/ChatLaw
-
簡介:中文法律大模型
-
數據:主要由論壇、新聞、法條、司法解釋、法律咨詢、法考題、判決文書組成,隨后經過清洗、數據增強等來構造對話數據。
-
訓練方法:(1)ChatLaw-13B:基于姜子牙Ziya-LLaMA-13B-v1模型采用Lora方式訓練而來。(2)ChatLaw-33B:基于Anima-33B采用Lora方式訓練而來。
LexiLaw
Github:?https://github.com/CSHaitao/LexiLaw
-
簡介:中文法律大模型
-
數據:BELLE-1.5M通用數據、LawGPT項目中52k單輪問答數據和92k帶有法律依據的情景問答數據、Lawyer LLaMA項目中法考數據和法律指令微調數據、華律網20k高質量問答數據、百度知道收集的36k條法律問答數據、法律法規、法律參考書籍、法律文書。
-
訓練方法:基于ChatGLM-6B模型,采用Freeze、Lora、P-Tuning-V2三種方法進行模型訓練。
LAW-GPT
Github:?https://github.com/LiuHC0428/LAW-GPT
-
簡介:中文法律大模型(獬豸)
-
數據:現有的法律問答數據集和基于法條和真實案例指導的self-Instruct構建的高質量法律文本問答數據。
-
訓練方法:基于ChatGLM-6B,采用Lora&16bit方法進行模型訓練。
lawyer-llama
Github:?https://github.com/AndrewZhe/lawyer-llama
-
簡介:中文法律LLaMA
-
數據:法考數據7k、法律咨詢數據14k
-
訓練方法:以Chinese-LLaMA-13B為底座,未經過法律語料continual training,使用通用instruction和法律instruction進行SFT。