目錄
一、ICL的優勢
1.傳統做法
2.ICL做法
二、ICL的發展?
三、ICL成因的兩種看法
1.meta learning
2.Bayesian Inference
四、ICL要點
① 語言模型的規模
② 提示詞prompt中提供的examples數量和順序
③ 提示詞prompt的形式(format)
五、fine-tune VS ICL
不要抓著枯葉哭泣,你要等待初春的芽
????????????????????????????????????????????????—— 25.3.26
一、ICL的優勢
1.傳統做法
任務定義 ——> 建立標注規范 ——> 標注人員學習標注規范 ——> 標注人員進行標注 ——> 對標注結果進行審核 ——> 使用標注數據訓練模型 ——> 模型驗證效果 ——> 模型實際預測
2.ICL做法
任務定義 ——> 模型實際預測
ICL方法如果完全成熟,意味著fine-tune范式的終結
二、ICL的發展?
關于ICL的成因,目前學術界沒有被廣泛認可的解釋,只有若干假說和一些表現分析。
在GPT3的論文中,z-s【zero-shot】,o-s【one-shot】,f-s【few-shot】都屬于ICL?
chain-of-thought思維鏈屬于ICL
GPT3給出參考:在輸入中加入至少一個樣本,能大幅提升ICL效果
對于一個較大的模型而言,給出一個例子就可以顯著的提升ICL的效果,給出Few-shot,準確性還會有所提升
對于一個較弱的模型而言,給出多少例子都不會顯著提升ICL的效果
fine-tune會傷害ICL能力
精巧的提示詞prompt設計有可能超過os、fs,可以通過提示詞的改寫進一步提高ICL的能力?
Magical word
不給出思維鏈,而是在輸入時多加入一句提示詞,需要模型一步步思考:Let's think step by step
模型就可以像思維鏈一樣主動發出思考,最終輸出正確的結果
ICL時輸入錯誤樣本,不一定影響準確率
我們發現,用隨機標簽替換正確標簽只會略微影響性能,這一趨勢在幾乎整個過程中是一致的
ICL可以壓倒先驗知識
三、ICL成因的兩種看法
1.meta learning
大模型能在內部訓練小型網絡
2.Bayesian Inference
模型任務可以看作一個貝葉斯一樣的多條件概率的組合,pretrain、prompt、example三者條件概率的組合,三者皆對于最終概率有影響
四、ICL要點
① 語言模型的規模
語言模型需要達到一定的規模
② 提示詞prompt中提供的examples數量和順序
給出的示例樣本的數量和順序也會影響模型效果的好壞
③ 提示詞prompt的形式(format)
提示詞的格式也十分重要,好的模型會根據你給出的格式回答你的問題