哈嘍,大家好👏
我是阿星!
現在很多AI科普文章都會提到微調,RAG。
但是沒有實戰的過的同學可能會問🤔——
啥時候用RAG?啥時候用微調呢?有啥區別?不都是讓模型增加知識面的嗎?
今天我們就對這個問題進行粗略歸類——
關于微調
你可以簡單理解為在預訓練之后(預訓練你可以簡單理解成自監督學習,得到一堆參數但是還不會自己回答)
——進行的一些QA對訓練,來教會模型組織語言,回答問題。
但是要注意微調是沒有對知識樣本做擴充的,擴充還是通過預訓練完成的。
微調之后才是基于人類反饋的強化學習。
簡單說就是預訓練👉微調👉強化學習,微調是中間這個環節。
不同微調之間有啥區別?
1、繼續預訓練-CPT:來增加知識、能力。補充模型在特定領域的缺陷。
2、微調訓練-SFT:給模型更多的QA對,來增強模型的依從性。常用于垂直大模型。這是現在最主要的方式。
3、偏好調優-DPO:用負反饋優化輸出,讓模型知道不能干啥,啥是錯的。
但是沒事也不用微調,不要聽到別人說微調自己也想微調……有很多已經調好的,可以去百煉云上看😂我之前也寫了一篇可以體驗簡版流程,實際比這個難n倍。零基礎也能體驗模型微調!魔塔+LLaMa Factory手把手教程
沒有必要,千萬別微調
優先級可以按照提示詞大于RAG大于微調。
1、針對特定行業/領域,如果模型根本就不具備特定知識,你可以用繼續預訓練-CPT。只不過數據上很多是1500萬字起步(下一篇推送會講講微調的數據質量要求有多可怕)
2、針對特定問題,微調訓練-SFT可以用RAG、提示詞、示例來做一些代替。因為SFT對數據質量要求要比RAG高,可以選擇不那么折騰直接上RAG
3、至于偏好調優-DPO,你可以選擇用提示詞示例。因為錯誤答案本身就對數據的要求更多了。你要枚舉多少回答來讓模型記住啥是錯的?
啥時候必須上微調
再好的提示詞都有輸出上的出入,如果是垂直指定的問題,你要求它回答的丁是丁卯是卯,那還是用微調最好。特別是金融和醫療。
1、比如在履職問題測評中,你需要對問題做嚴格分類,查詢特定的數據庫,也可能涉及到指定的關鍵詞。說白了就是場景足夠垂直。
2、高并發任務、對效率要求極高的場景,可以通過微調加速響應。
比如對即時主觀題打分,就會需要快速響應來適應考試節奏等。
3、特別是端側,很多服務都需要云端判斷,對定向場景需要的就是速度和準確度,離不開微調。
下一期我們詳細說說微調有多麻煩。我是阿星,我們下期再見。
往期文章:
一鍵榨干視頻干貨!這個開源神器讓90%知識博主慌了
普通提示詞vs工程級提示詞,掌握這4點
超酷!蘋果最新開源攝像頭會看的AI,fastvlm視覺模型真機實測
n8n教程:5分鐘部署+自動生AI日報并寫入飛書多維表格