大模型應用：LLM基本原理及應用場景

在這里插入圖片描述

1.背景

23年以來，隨著OpenAI公司的ChatGPT橫空出世，大模型一詞開始火爆全球。國內外以OpenAI、Google、百度、阿里、字節等大廠為代表，相繼推出一系列大模型及其應用，涉及社交、問答、代碼助手等多個方面。
目前主流的大模型及產品：

OpenAI：GPT3.5、GTP4系列，以及Lora等文生圖模型，代表產品：ChatGPT
Google：Gemini
百度：文心一言3.0、4.0系列，代表產品：文心一言、文心一格
阿里：通義大模型，代表產品：通義千問
百川：百川大模型
騰訊：混元大模型
字節：豆包大模型

大模型究竟是什么，和基礎的垂類模型/多模態模型有何差異？為什么可以基于大模型來構建一系列垂類應用，以及可以使用大模型構建什么應用？

2.LLM基本原理

大模型又被稱為大語言模型（Large Language Model）或大規模預訓練語言模型（Large Pretrained Language Model）。
對于小模型（垂類模型）：每個小模型對打標數據集識別進行訓練，比如專注識別貓狗圖片的圖片模型、并在對應的數據集上評估，給出模型產物。小模型的特點是“專注”，每一個小模型訓練出來就是為了識別某類特定目標。
對于大模型來說，其需要具備大量的語料參數以及很好的理解能力，其訓練分為兩個階段：

一階段預訓練：在大量的文本語料數據集（待標數據）中進行訓練，提取特征。經過預訓練后的大模型具有大量參數和強大的語料理解能力，它能識別輸入的文本，并且預測出下一個最大概率的文本，一階段訓練后產出的大模型為基礎LLM。
二階段指令微調：由于一階段產出的基礎LLM只能做到從輸入的文本預測下一個最有可能的文本，比如輸入“中國的首都”，那么預測輸出為“中國”，但如果我們想讓大模型“思考”，如輸入“你知道中國的首都是北京嗎？”，那么大模型的預測輸出可能不符合預期。所以對于使用場景，需要對一階段基礎LLM進行微調，通過指令微調給定輸入，并且明確告訴LLM需要基于該輸入，得到什么樣的結果，讓LLM學習這個過程，已得到二階段的指令微調LLM。比如ChatGPT使用大模型的就是由GPT基礎LLM經過微調后得到的。

對于算法架構，LLM主要是采用了Transformer架構來增強大模型對語料的上下文理解能力，可以做到長序列理解及推理。

3.LLM應用場景

基礎LLM具有千億級別參數及語料，具有很好的文本理解能力，通過二階段指令微調可以讓基礎LLM在特定場景下做到更準確的輸出判斷，目前LLM應用場景十分廣泛，包括：

社交領域
1. 智能對話
2. 虛擬人
編程領域
1. 代碼理解
2. 潛在BUG掃描
3. 代碼生成
風控領域
1. 智能審核
2. 風險判別
工業/醫學領域
1. 系統檢修判斷
2. 醫學輔助診斷
生成式創造
1. 文生圖
2. 文生視頻
3. 圖片/視頻擴展

本文來自互聯網用戶投稿，該文觀點僅代表作者本人，不代表本站立場。本站僅提供信息存儲空間服務，不擁有所有權，不承擔相關法律責任。
如若轉載，請注明出處：http://www.pswp.cn/bicheng/18284.shtml
繁體地址，請注明出處：http://hk.pswp.cn/bicheng/18284.shtml
英文地址，請注明出處：http://en.pswp.cn/bicheng/18284.shtml

如若內容造成侵權/違法違規/事實不符，請聯系多彩編程網進行投訴反饋email:809451989@qq.com，一經查實，立即刪除！