LiteratureReading:[2016] Enriching Word Vectors with Subword Information

文章目錄

一、文獻簡明（zero）
二、快速預覽（first）
- 1、標題分析
- 2、作者介紹
- 3、引用數
- 4、摘要分析
- - （1）翻譯
  - （2）分析
- 5、總結分析
- - （1）翻譯
  - （2）分析
- 6、部分圖表
- 7、引言分析
- - （1）翻譯
  - （2）分析
- 8、標題結構
- 9、參考文獻
三、重點閱讀（second）
四、深入理解（third）
五、技術復現（forth）

一、文獻簡明（zero）

領域：NLP
標題：[2016] Enriching Word Vectors with Subword Information（用子詞信息豐富詞向量）
作者：Bojanowski et al.

貢獻：提出了fastText模型，利用子詞信息解決未登錄詞問題，提升了詞向量的泛化能力。
鏈接：原文

二、快速預覽（first）

1、標題分析

標題“Enriching Word Vectors with Subword Information”直接表明了文章的核心內容和研究目標，即通過引入子詞（subword）信息來豐富詞向量。這種方法與傳統的詞向量模型不同，它不僅為每個獨立的單詞分配一個向量，而且還利用單詞的字符n-gram來表示單詞。這樣的表示方法可以捕捉到單詞的形態學信息，對于處理罕見詞、合成詞以及跨語言的詞向量學習尤其有用。此外，這種方法允許模型快速地在大型語料庫上訓練，并能夠為訓練數據中未出現的單詞生成詞向量，這在自然語言處理任務中非常有價值。

2、作者介紹

Piotr Bojanowski：名字后有星號(*)，可能表示他是論文的主要作者或通訊作者。
Edouard Grave：名字后有星號(*)，同樣可能表示他是論文的主要作者或通訊作者。
Armand Joulin 和 Tomas Mikolov：這兩位作者沒有特別的標記，表明他們也是論文的共同作者。

他們所屬的機構是 Facebook AI Research，即 Facebook 的人工智能研究部門，這是一個專注于人工智能和機器學習研究的團隊。

聯系郵箱是 {bojanowski, egrave, ajoulin, tmikolov}@fb.com，這意味著每位作者的郵箱地址由他們的名字組成，域名是 fb.com，這是 Facebook 公司使用的域名。

3、引用數

……

4、摘要分析

在這里插入圖片描述

（1）翻譯

連續詞表示，通過在大型未標記語料庫上訓練，對許多自然語言處理任務非常有用。那些學習此類表示的流行模型忽略了詞的形態學，通過為每個詞分配一個不同的向量。這是一個限制，特別是對于詞匯量大且有許多罕見詞的語言。在本文中，我們提出了一種基于skipgram模型的新方法，其中每個詞被表示為字符n-gram的集合。與每個字符n-gram相關聯的向量表示；詞被表示為這些表示的總和。我們的方法快速，允許在大型語料庫上快速訓練模型，并允許我們計算在訓練數據中未出現的詞的詞表示。我們在九種不同的語言上評估了我們的詞表示，包括詞相似性和類比任務。通過與最近提出的形態學詞表示進行比較，我們展示了我們的向量在這些任務上實現了最先進的性能。

（2）分析

問題陳述：
- 摘要開頭指出了現有詞表示方法的一個主要限制：它們忽略了詞的形態學信息，這在處理詞匯量大和含有許多罕見詞的語言時是一個問題。
方法介紹：
- 作者提出了一種基于skipgram模型的新方法，該方法通過字符n-gram來表示詞。這種方法允許模型捕捉到詞的內部結構，從而更好地處理形態豐富的語言。
- 每個字符n-gram都有一個向量表示，而詞的表示則是這些向量的總和。這種方法不僅能夠處理已知的詞，還能生成未見過的詞的表示。
優勢：
- 該方法快速，能夠在大型語料庫上快速訓練模型。
- 它能夠為訓練數據中未出現的詞生成詞表示，這在處理新詞或罕見詞時非常有用。
評估：
- 作者在九種不同的語言上評估了他們的詞表示方法，包括詞相似性和類比任務。
- 通過與最近提出的形態學詞表示方法進行比較，作者展示了他們的方法在這些任務上實現了最先進的性能。
結論：
- 摘要最后總結了作者的方法在處理詞相似性和類比任務上的優勢，強調了其在自然語言處理任務中的潛力。

總的來說，這篇摘要清晰地介紹了作者的研究動機、提出的方法、方法的優勢以及評估結果，為讀者提供了一個全面的概述。

5、總結分析

在這里插入圖片描述

（1）翻譯

在本文中，我們研究了一種簡單的方法來學習詞表示，該方法考慮了子詞信息。我們的方法將字符n-gram納入skipgram模型中，這一想法與Schütze（1993）提出的觀點相關。由于其簡單性，我們的模型訓練速度快，并且不需要任何預處理或監督。我們展示了我們的模型優于那些不考慮子詞信息的基線方法，以及依賴形態學分析的方法。為了促進未來在子詞表示學習方面的工作，我們將開源我們的模型實現。

（2）分析

研究目的和方法：
- 作者在本文中探討了一種新的詞表示學習方法，該方法通過考慮子詞（subword）信息來改進傳統的詞表示。
- 具體來說，作者將字符n-gram整合到skipgram模型中，這是一種詞嵌入技術，用于生成詞的向量表示。
方法的創新點：
- 這種方法的創新之處在于它考慮了詞的內部結構（即子詞信息），這有助于更好地理解和表示詞的意義。
- 作者提到這種方法與Schütze在1993年提出的觀點相關，表明他們的工作是建立在先前研究的基礎上的。
模型的優勢：
- 由于模型的簡單性，它訓練速度快，不需要復雜的預處理或監督學習。
- 作者通過實驗展示了他們的模型在性能上優于不考慮子詞信息的基線方法，以及那些依賴形態學分析的方法。
開放源代碼：
- 作者承諾將開源他們的模型實現，這有助于其他研究人員復現結果、進行比較研究，并在此基礎上進一步發展。
結論的總結：
- 作者總結了他們的研究成果，強調了模型在處理詞表示時考慮子詞信息的重要性，并展示了其在性能上的優勢。
- 開源模型實現的決定進一步強調了作者對促進學術界在這一領域發展的承諾。

總的來說，這篇結論部分清晰地總結了研究的主要貢獻和發現，并提出了未來研究的方向。通過開源模型，作者為學術界提供了一個寶貴的資源，以促進進一步的研究和開發。

6、部分圖表

在這里插入圖片描述
這幅圖展示了訓練數據規模對模型性能的影響，具體通過Spearman秩相關系數來衡量。圖中有兩個子圖，分別對應兩種不同的數據集：

(a) DE-Gur350：這個子圖顯示了在DE-Gur350數據集上的性能表現。圖中有三條曲線，分別代表三種不同的模型或方法：
- 藍色曲線（cbow）：表示使用連續詞袋模型（Continuous Bag of Words）的性能。
- 黃色曲線（sigsq）：表示使用一種特定的模型或方法的性能。
- 紅色曲線（sigsq）：表示使用另一種變體的sigsq模型的性能。
(b) En-RW：這個子圖顯示了在En-RW數據集上的性能表現。同樣有三條曲線，顏色和含義與(a)相同。

在兩個子圖中，橫軸表示使用的數據百分比（從0%到100%），縱軸表示Spearman秩相關系數（從15到75）。Spearman秩相關系數是一種統計度量，用于評估兩個變量之間的單調關系，值越高表示模型性能越好。

從圖中可以看出：

在兩個數據集上，隨著訓練數據的增加，所有模型的性能都有所提高。
在DE-Gur350數據集上，紅色曲線（sigsq）的性能最好，其次是黃色曲線，最后是藍色曲線。
在En-RW數據集上，紅色曲線（sigsq）的性能同樣最好，但黃色和藍色曲線的性能差距較小。

圖例位于每個子圖的右側，幫助區分不同的曲線。圖下方的說明文字解釋了實驗設置：使用不同規模的數據集來訓練模型，并在維基百科的完整數據集的一個分數上進行訓練。

7、引言分析

（1）翻譯

學習詞的連續表示在自然語言處理中有著悠久的歷史（Rumelhart et al., 1988）。這些表示通常通過使用共現統計從大型未標記語料庫中得出（Deerwester et al., 1990; Schütze, 1992; Lund and Burgess, 1996）。大量工作，被稱為分布式語義學，已經研究了這些方法的性質（Turney et al., 2010; Baroni and Lenci, 2010）。在神經網絡社區，Collobert 和 Weston（2008）提出使用前饋神經網絡學習詞嵌入，通過基于左右兩側的兩個詞預測一個詞。最近，Mikolov 等人（2013b）提出了簡單的對數雙線性模型，以高效地在非常大的語料庫上學習詞的連續表示。

這些技術中的大多數通過一個不同的向量表示詞匯表中的每個詞，而沒有參數共享。特別是，它們忽略了詞的內部結構，這對于形態豐富的語言（如土耳其語或芬蘭語）來說是一個重要的限制。例如，在法語或西班牙語中，大多數動詞有四十多種不同的屈折形式，而芬蘭語有十五種名詞格。這些語言包含許多在訓練語料庫中很少出現（或根本不出現）的詞形，使得學習好的詞表示變得困難。因為許多詞形遵循規則，所以可以通過使用字符級信息來改善形態豐富的語言的向量表示。

在本文中，我們提出學習字符n-gram的表示，并將其作為n-gram向量的和來表示詞。我們的主要貢獻是引入了連續skipgram模型（Mikolov et al., 2013b）的擴展，該模型考慮了子詞信息。我們在展示不同形態的九種語言上評估了這個模型，展示了我們方法的好處。

（2）分析

背景介紹：
- 引言部分首先介紹了詞的連續表示在自然語言處理中的重要性和歷史背景。
- 提到了分布式語義學和早期的詞嵌入方法，如Collobert和Weston（2008）以及Mikolov等人（2013b）的工作。
現有方法的局限性：
- 現有方法通常通過為每個詞分配一個獨立的向量來表示詞，忽略了詞的內部結構。
- 這種表示方法在處理形態豐富的語言時存在局限性，因為這些語言中存在大量的詞形變化，而這些變化在訓練數據中可能很少出現。
提出的解決方案：
- 作者提出了一種新的方法，通過學習字符n-gram的表示，并將其作為n-gram向量的和來表示詞。
- 這種方法考慮了子詞信息，可以更好地處理形態豐富的語言。
研究貢獻：
- 作者的主要貢獻是引入了連續skipgram模型的擴展，該模型考慮了子詞信息。
- 作者在九種不同的語言上評估了這個模型，展示了其在處理形態豐富的語言時的優勢。
研究意義：
- 通過引入子詞信息，作者的方法可以更好地處理形態豐富的語言，這對于自然語言處理中的許多任務（如詞相似性、類比任務等）具有重要意義。
- 開源模型實現也有助于促進未來在子詞表示學習方面的研究。

8、標題結構

Enriching Word Vectors with Subword Information - 用子詞信息豐富詞向量
Abstract - 摘要
1 Introduction - 1 引言
2 Related work - 2 相關工作
3 Model - 3 模型
- 3.1 General model - 3.1 通用模型
- 3.2 Subword model - 3.2 子詞模型
4 Experimental setup - 4 實驗設置
- 4.1 Baseline - 4.1 基線
- 4.2 Optimization - 4.2 優化
- 4.3 Implementation details - 4.3 實現細節
- 4.4 Datasets - 4.4 數據集
5 Results - 5 結果
- 5.1 Human similarity judgement - 5.1 人類相似性判斷
- 5.2 Word analogy tasks - 5.2 詞類比任務
- 5.3 Comparison with morphological representations - 5.3 與形態學表示的比較
- 5.4 Effect of the size of the training data - 5.4 訓練數據規模的影響
- 5.5 Effect of the size of n-grams - 5.5 n-gram大小的影響
- 5.6 Language modeling - 5.6 語言建模
6 Qualitative analysis - 6 定性分析
- 6.1 Nearest neighbors - 6.1 最近鄰
- 6.2 Character n-grams and morphemes - 6.2 字符n-gram和詞素
- 6.3 Word similarity for OOV words - 6.3 未見詞的詞相似性
7 Conclusion - 7 結論
Acknowledgements - 致謝
References - 參考文獻

9、參考文獻

Andrei Alexandrescu and Katrin Kirchhoff. 2006. Factored neural language models. In Proc. NAACL.
安德烈·亞歷山德雷斯庫和卡特琳·基爾霍夫。2006年。分解神經語言模型。載于北美計算語言學協會會議論文集。
Miguel Ballesteros, Chris Dyer, and Noah A. Smith. 2015. Improved transition-based parsing by modeling characters instead of words with LSTMs. In Proc. EMNLP.
米格爾·巴列斯特羅斯，克里斯·戴爾和諾亞·A·史密斯。2015年。通過用LSTM對字符而非單詞進行建模來改進基于轉換的解析。載于自然語言處理經驗方法會議論文集。
Marco Baroni and Alessandro Lenci. 2010. Distributional memory: A general framework for corpus-based semantics. Computational Linguistics, 36(4):673– 721.
馬可·巴羅尼和亞歷山德羅·倫奇。2010年。分布式記憶：基于語料庫的語義的一般框架。計算語言學，36(4):673–721。
Giacomo Berardi, Andrea Esuli, and Diego Marcheggiani. 2015. Word embeddings go to Italy: a comparison of models and training datasets. Italian Information Retrieval Workshop.
賈科莫·貝拉迪，安德烈·埃蘇利和迭戈·馬爾凱賈尼。2015年。詞嵌入進入意大利：模型和訓練數據集的比較。意大利信息檢索研討會。
Piotr Bojanowski, Armand Joulin, and Tomá? Mikolov. 2015. Alternative structures for character-level RNNs. In Proc. ICLR.
彼得·博揚諾夫斯基，阿曼德·朱林和托馬什·米科洛夫。2015年。字符級RNN的替代結構。載于國際學習表示會議論文集。
Jan A. Botha and Phil Blunsom. 2014. Compositional morphology for word representations and language modelling. In Proc. ICML.
揚·A·博塔和菲爾·布倫索姆。2014年。用于詞表示和語言建模的組合形態學。載于國際機器學習會議論文集。
Xinxiong Chen, Lei Xu, Zhiyuan Liu, Maosong Sun, and Huanbo Luan. 2015. Joint learning of character and word embeddings. In Proc. IJCAI.
陳新雄，徐磊，劉志遠，孫茂松和欒歡波。2015年。字符和詞嵌入的聯合學習。載于國際人工智能聯合會議論文集。
Grzegorz Chrupa?a. 2014. Normalizing tweets with edit scripts and recurrent neural embeddings. In Proc. ACL.
格熱戈日·赫魯帕拉。2014年。使用編輯腳本和循環神經嵌入對推文進行規范化。載于計算語言學協會會議論文集。
Ronan Collobert and Jason Weston. 2008. A unified architecture for natural language processing: Deep neural networks with multitask learning. In Proc. ICML.
羅南·科洛貝爾和杰森·韋斯頓。2008年。自然語言處理的統一架構：具有多任務學習的深度神經網絡。載于國際機器學習會議論文集。
Ryan Cotterell and Hinrich Schütze. 2015. Morphological word-embeddings. In Proc. NAACL.
瑞安·科特雷爾和欣里希·舒爾策。2015年。形態學詞嵌入。載于北美計算語言學協會會議論文集。
Qing Cui, Bin Gao, Jiang Bian, Siyu Qiu, Hanjun Dai, and Tie-Yan Liu. 2015. KNET: A general framework for learning word embedding using morphological knowledge. ACM Transactions on Information Systems, 34(1):4:1–4:25.
崔青，高斌，邊江，邱思宇，戴漢軍和劉鐵巖。2015年。KNET：使用形態學知識學習詞嵌入的通用框架。信息系統學報，34(1):4:1–4:25。
Scott Deerwester, Susan T. Dumais, George W. Furnas, Thomas K. Landauer, and Richard Harshman. 1990. Indexing by latent semantic analysis. Journal of the American Society for Information Science, 41(6):391– 407.
斯科特·迪爾沃斯特，蘇珊·杜邁斯，喬治·弗納斯，托馬斯·蘭道爾和理查德·哈什曼。1990年。通過潛在語義分析進行索引。美國信息科學學會學報，41(6):391–407。
Cicero Nogueira dos Santos and Maira Gatti. 2014. Deep convolutional neural networks for sentiment analysis of short texts. In Proc. COLING.
西塞羅·努熱拉·多斯桑托斯和邁拉·加蒂。2014年。用于短文本情感分析的深度卷積神經網絡。載于計算語言學國際會議論文集。
Cicero Nogueira dos Santos and Bianca Zadrozny. 2014. Learning character-level representations for part-of-speech tagging. In Proc. ICML.
西塞羅·努熱拉·多斯桑托斯和比安卡·扎德羅茲尼。2014年。學習字符級表示以進行詞性標注。載于國際機器學習會議論文集。
Lev Finkelstein, Evgeniy Gabrilovich, Yossi Matias, Ehud Rivlin, Zach Solan, Gadi Wolfman, and Eytan Ruppin. 2001. Placing search in context: The concept revisited. In Proc. WWW.
列夫·芬克爾斯坦，葉夫根尼·加布里洛維奇，約西·馬蒂亞斯，埃胡德·里夫林，扎克·索蘭，加迪·沃爾夫曼和艾坦·魯平。2001年。在上下文中放置搜索：概念再探。載于萬維網會議論文集。
Alex Graves. 2013. Generating sequences with recurrent neural networks. arXiv preprint arXiv:1308.0850.
亞歷克斯·格雷夫斯。2013年。使用循環神經網絡生成序列。arXiv預印本 arXiv:1308.0850。
Iryna Gurevych. 2005. Using the structure of a conceptual network in computing semantic relatedness. In Proc. IJCNLP.
伊琳娜·古雷維奇。2005年。在計算語義相關性中使用概念網絡的結構。載于國際計算自然語言處理會議論文集。
Zellig S Harris. 1954. Distributional structure. Word, 10(2-3):146–162.
澤利格·S·哈里斯。1954年。分布式結構。詞語，10(2-3):146–162。
Samer Hassan and Rada Mihalcea. 2009. Cross-lingual semantic relatedness using encyclopedic knowledge. In Proc. EMNLP.
薩默·哈桑和拉達·米哈爾切亞。2009年。使用百科全書知識進行跨語言語義相關性。載于自然語言處理經驗方法會議論文集。
Colette Joubarne and Diana Inkpen. 2011. Comparison of semantic similarity for different languages using the google n-gram corpus and second-order co-occurrence measures. In Proc. Canadian Conference on Artificial Intelligence.
科萊特·朱巴恩和戴安娜·因克潘。2011年。使用谷歌n-gram語料庫和二階共現度量比較不同語言的語義相似性。載于加拿大人工智能會議論文集。
Yoon Kim, Yacine Jernite, David Sontag, and Alexander M Rush. 2016. Character-aware neural language models. In Proc. AAAI.
尹金，亞辛·杰尼特，大衛·索塔格，亞歷山大·M·拉什。2016年。字符感知神經語言模型。載于美國人工智能協會會議論文集。
Maximilian K?per, Christian Scheible, and Sabine Schulte im Walde. 2015. Multilingual reliability and “semantic” structure of continuous word spaces. Proc. IWCS 2015.
馬克西米利安·克佩爾，克里斯蒂安·謝布爾，薩賓·舒爾特·伊姆·瓦爾德。2015年。連續詞空間的多語言可靠性和“語義”結構。載于國際詞義計算研討會論文集。
Angeliki Lazaridou, Marco Marelli, Roberto Zamparelli, and Marco Baroni. 2013. Compositionally derived representations of morphologically complex words in distributional semantics. In Proc. ACL.
安杰莉基·拉扎里杜，馬可·馬雷利，羅伯托·贊帕雷利，馬可·巴羅尼。2013年。分布式語義中形態復雜詞的組合派生表示。載于計算語言學協會會議論文集。
Wang Ling, Chris Dyer, Alan W. Black, Isabel Trancoso, Ramon Fermandez, Silvio Amir, Luis Marujo, and Tiago Luis. 2015. Finding function in form: Compositional character models for open vocabulary word representation. In Proc. EMNLP.
王凌，克里斯·戴爾，艾倫·W·布萊克，伊莎貝爾·特蘭科索，拉蒙·費爾南德斯，西爾維奧·阿米爾，路易斯·馬魯霍，蒂亞戈·路易斯。2015年。在形式中尋找功能：開放詞匯詞表示的組合字符模型。載于自然語言處理經驗方法會議論文集。
Kevin Lund and Curt Burgess. 1996. Producing high-dimensional semantic spaces from lexical co-occurrence. Behavior Research Methods, Instruments, & Computers, 28(2):203–208.
凱文·倫德和科特·伯吉斯。1996年。從詞匯共現產生高維語義空間。行為研究方法、儀器與計算機，28(2):203–208。
Minh-Thang Luong and Christopher D. Manning. 2016. Achieving open vocabulary neural machine translation with hybrid word-character models. In Proc. ACL.
明堂·盧翁和克里斯托弗·D·曼寧。2016年。使用混合詞字符模型實現開放詞匯神經機器翻譯。載于計算語言學協會會議論文集。
Thang Luong, Richard Socher, and Christopher D. Manning. 2013. Better word representations with recursive neural networks for morphology. In Proc. CoNLL.
堂·盧翁，理查德·索徹和克里斯托弗·D·曼寧。2013年。使用形態學遞歸神經網絡獲得更好的詞表示。載于自然語言處理共指決議付會議論文集。
Tomá? Mikolov, Ilya Sutskever, Anoop Deoras, Hai-Son Le, Stefan Kombrink, and Jan ˇCernocky. 2012. Subword language modeling with neural networks. Technical report, Faculty of Information Technology, Brno University of Technology.
托馬什·米科洛夫，伊利亞·蘇茨克維爾，阿諾普·德奧拉斯，海森·勒，斯特凡·科姆布林克，揚·切諾科。2012年。使用神經網絡進行子詞語言建模。技術報告，布爾諾理工大學信息技術學院。
Tomá? Mikolov, Kai Chen, Greg D. Corrado, and Jeffrey Dean. 2013a. Efficient estimation of word representations in vector space. arXiv preprint arXiv:1301.3781.
托馬什·米科洛夫，凱·陳，格雷格·D·科拉多，杰弗里·迪恩。2013年。向量空間中詞表示的有效估計。arXiv預印本 arXiv:1301.3781。
Tomá? Mikolov, Ilya Sutskever, Kai Chen, Greg S. Corrado, and Jeff Dean. 2013b. Distributed representations of words and phrases and their compositionality. In Adv. NIPS.
托馬什·米科洛夫，伊利亞·蘇茨克維爾，凱·陳，格雷格·S·科拉多，杰夫·迪恩。2013年。詞和短語的分布式表示及其組合性。載于神經信息處理系統進展。