命名實體識別(Named Entity Recognition,NER)就是從一段自然語言文本中找出相關實體,并標注出其位置以及類型,如下圖。它是NLP領域中一些復雜任務(例如關系抽取,信息檢索等)的基礎。
NER一直是NLP領域中的研究熱點,從早期基于詞典和規則的方法,到傳統機器學習的方法,到近年來基于深度學習的方法,NER研究進展的大概趨勢大致如下圖所示。
在基于機器學習的方法中,NER被當作是序列標注問題。與分類問題相比,序列標注問題中當前的預測標簽不僅與當前的輸入特征相關,還與之前的預測標簽相關,即預測標簽序列之間是有強相互依賴關系的。例如,使用BIO標簽策略進行NER時,正確的標簽序列中標簽O后面是不會接標簽I的
在傳統機器學習中,條件隨機場(Conditional Random Field,CRF)是NER目前的主流模型。它的目標函數不僅考慮輸入的狀態特征函數,而且還包含了標簽轉移特征函數。在訓練時可以使用SGD學習模型參數。在已知模型時,給輸入序列求預測輸出序列即求使目標函數最大化的最優序列,是一個動態規劃問題,可以使用維特比算法進行解碼。
在傳統機器學習方法中,常用的特征如下:
?