Re53：讀論文 How Can We Know What Language Models Know?

諸神緘默不語-個人CSDN博文目錄
諸神緘默不語的論文閱讀筆記和分類

論文名稱：How Can We Know What Language Models Know?

ArXiv網址：https://arxiv.org/abs/1911.12543

官方GitHub項目（prompt之類的都有）：https://github.com/jzbjyb/LPAQA

本文是2020年TACL論文，作者來自卡耐基梅隆大學和博世北美研究所。

本文關注探索LM中蘊含的知識。以前已經有工作用完形填空的方式來探查知識（Obama is a __ by profession），但是這些填空模版（prompt）都是手工做的，因此可能是sub-optimal的（在上一篇論文最后也提及了），不能充分發揮LM的能力。
本文的解決方案是自動挖掘prompt（遠程監督、回譯、集成）

這篇工作的實驗真的多，這也太能做了。

文章目錄

1. 探查知識的方案
2. 實驗
- 1. 數據集
- 2. LM
- 3. baseline
- 4. 實驗設置
- 5. 主實驗結果
- 6. 實驗分析
- - Prediction Consistency by Prompt
  - POS-based Analysis
  - Cross-model Consistency
  - Linear vs. Log-linear Combination
- 7. 失敗trick集合

1. 探查知識的方案

在這里插入圖片描述

從數據庫中獲取知識是deterministic的，但從LM中獲取知識（完形填空）是不可靠的。
本文用的都是雙向LM，做填空題的那種。

mining-based methods：遠程監督：從維基百科中找三元組出現的句子。
1. 方法一：Middle-word Prompts（subject prompt object）
2. 方法二：Dependency-based Prompts（句法分析→subject和object之間的依存路徑）
  
  （句法分析這塊我也不懂總之大概是這么個意思吧）
paraphrasing-based methods：對人工或挖掘得到的種子prompt進行回譯
挑選和集成prompt
1. Top-1 Prompt Selection：選擇在訓練集上準確率最高的prompt（這個準確率的公式定義比較復雜，但是反正就這個prompt對應的關系里object預測正確的占所有樣本的比例）
2. Rank-based Ensemble：top-K概率求和
3. Optimized Ensemble：大意是說對每個關系的T個prompt分別訓練權重

這篇paper里面還提及了BERT跟LM的標準定義嚴格來說不一樣這一茬：
在這里插入圖片描述
感覺現在已經沒人在乎了=== 隨便吧==

2. 實驗

1. 數據集

在這里插入圖片描述

2. LM

BERT-base
BERT-large

增強了外部的實體表征：
ERNIE
Know-Bert

3. baseline

Majority
Man：手工prompt
Mine
Mine+Man
Mine+Para
Man+Para
TopK：求平均
Opti.：加權平均
Oracle：所有prompt中有一個能預測正確，就算LM知道這個知識

4. 實驗設置

mine 40個prompts
回譯7個prompts

清洗噪音prompts

Adam
batch size: 32

5. 主實驗結果

評估指標：micro-averaged accuracy

在這里插入圖片描述

與手工prompt相比，效果得到了提升：
在這里插入圖片描述

集成權重：
在這里插入圖片描述

K的選擇：
在這里插入圖片描述

prompt做輕微修改也能改變效果：
在這里插入圖片描述

兩種遠程監督方案的對比：
在這里插入圖片描述

不同LM的實驗結果：
在這里插入圖片描述

在LAMA-HUN（一個比LAMA更難的benchmark）上的表現：
在這里插入圖片描述

在Google-RE上的表現：
在這里插入圖片描述

6. 實驗分析

Prediction Consistency by Prompt

在這里插入圖片描述
divergence是兩個prompt預測結果不同的程度：

皮爾森相關系數是0.25，說明編輯距離和divergence之間確實存在弱相關性（prompt差別越大，預測結果差別越大）

POS-based Analysis

在這里插入圖片描述

在這里插入圖片描述
用排名分布而不是準確率分布，在腳注解釋了一下是因為不同關系的準確率的量級不同

Cross-model Consistency

檢測prompts能不能跨模型通用

在這里插入圖片描述

Linear vs. Log-linear Combination

求和的權重

在這里插入圖片描述

7. 失敗trick集合

這塊真實誠啊

LM-aware Prompt Generation
Forward and Backward Probabilities

本文來自互聯網用戶投稿，該文觀點僅代表作者本人，不代表本站立場。本站僅提供信息存儲空間服務，不擁有所有權，不承擔相關法律責任。
如若轉載，請注明出處：http://www.pswp.cn/news/166649.shtml
繁體地址，請注明出處：http://hk.pswp.cn/news/166649.shtml
英文地址，請注明出處：http://en.pswp.cn/news/166649.shtml

如若內容造成侵權/違法違規/事實不符，請聯系多彩編程網進行投訴反饋email:809451989@qq.com，一經查實，立即刪除！