3.4 縮略詞抽取

概述

????????縮略詞指的是一個詞或者短語的縮略形式,其通常由原詞中的一些組成部分構成,同時保持原詞的含義。縮略詞的檢測與抽取在方法上與同義詞的檢測與抽取類似,但是相比同義詞,縮略詞在文本中出現的規則往往更簡單。

? ? ? ? 不同語言縮略詞的形式不同。以表音文字(如拉丁語系)和表意文字(如中文)為例。拉丁語系的縮略詞形式包括contractions(簡稱)、crasis(元音融合)、acronyms(首字母縮寫)和initialisms(首字母縮寫)。而表意文字的縮略形式相對復雜,并且在自然語言處理中依賴分詞算法來對其詞邊界進行劃分,其縮略形式往往是從每個詞中選取一個或者多個字組成,剩下的那些字則直接省略。

例:

Doctor,I am --> Dr,I'm(英語)
De le,de les --> Du,des(法語)
中國中央電視臺-->央視

縮略詞的檢測與抽取

????????縮略詞的檢測及抽取方法以模式匹配為主,但是自動抽取出的結果常常包含大量噪聲,為此需要利用統計信息結合各類機器學習方法來對抽取結果進行清洗。

基于文本模式的抽取

????????最常用的方法,以同義詞抽取中的規則很相似。X表示原詞,Y表示縮略詞,例:

X(Y)? ? ? ? Support vector machine(SVM)
X.*(Y)? ? ? ? Support vector machine for gression(SVM)
Y is the abbreviation of X? ? ? ? SVM is the abbreviation of Support vector machine

? ? ? ? 通過編制復雜且精細的模式能保證基于模式匹配的縮略詞抽取方法的準確率,但是召回率往往較低,并且枚舉長尾模式也十分困難。此外,抽取仍然可能錯誤,需要對抽取結果進行清洗和篩選。

抽取結果的清洗和篩選

????????主要分兩種:利用數據集有關縮寫的統計指標進行識別;使用機器學習模型構建二元分類模型來判斷。前者使用的統計指標一般包含頻率、卡方檢驗、互信息以及最大熵等,后者需要依賴認為設計的特征,特征除了包含前面的統計指標外,也包括文本特征。縮略詞判定的文本特征主要包括字符匹配程度(縮略詞中是否包含全稱以外的詞,縮略詞與全稱的編輯距離,縮略詞與全稱的長度差異,縮略詞中的字在全稱中的位置等)、詞性特征兩類。

枚舉并剪枝

? ? ? ? 針對中文縮略詞提出的一種有效辦法。首先窮舉目標實體名稱所有的子序列,即所有可能的縮略形式,進一步排除沒有在文本中出現過的或者出現次數太少的候選縮略詞。書上的一個例子:

縮略詞的預測

????????受限于語料大小,縮略詞抽取的方法能獲得大量縮略詞對,但是對于新登錄詞往往效果較差。目前的一些相關研究著眼于分析縮略詞的規則,自動習得縮略詞形式并進行預測。

基于規則的方法

????????大致分為兩種:針對特性字符和詞語形式的局部規則(基于詞性、位置、詞之間的相互關聯);依賴語言環境的全局規則。

? ? ? ? 縮略詞問題涉及的很多規則往往是很復雜且難以被明確定義的,并且相關規則需要領域專家進行編寫,成本高且泛化性差,一旦遇到規則之外的情況就難以處理,導致召回率很低。此外,可能出現在同一個全稱適用多個匹配規則的情況,此時規則的選擇或者融合往往十分困難。但總體上說,規則是可控、可解釋的。

條件隨機場

????????絕大部分縮略詞都由全稱中包含的字符組成,并且字符間的順序往往會保留。借助這一特性,可以將其轉化為序列標注問題。條件隨機場(CRF)是較早運用于進行縮略詞生成的序列標注模型。

CRF極簡引用

深度學習

????????在神經網絡方法中,詞或字符被表示為一個低維稠密空間中的向量,借助于典型網絡結構(CNN、RNN等)抽取字詞之間的組合特征。深度神經網絡往往能夠取得更優異的性能,但是與神經網絡的通病一樣,可解釋性差。

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/web/94053.shtml
繁體地址,請注明出處:http://hk.pswp.cn/web/94053.shtml
英文地址,請注明出處:http://en.pswp.cn/web/94053.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

Lua腳本如何執行主程序的C函數

Lua Call C function Lua腳本可以和C函數靈活的結合,Lua腳本作為控制語言,使用C函數來做性能計算部分。 Lua腳本的執行器有Lua 和 Luajit。 使用Lua執行器,可以通過C語言注冊C函數到Lua State, 然后Lua腳本可以調用該C函數。 使用Luajit&…

農業-學習記錄

1-git上傳(簡易版)首先,記得vscode打開的項目路徑是/home/Agribrain。不然會提示上傳很多項目無關的文件。① 暫存所有更改②使用vscode終端注意:終端打開路徑:/home/Agribrain/agribrain【git項目的所在目錄】&#x…

什么是數據集成?數據集成對數據治理有什么影響

在大數據與人工智能驅動的時代,數據已經成為企業的“新型生產力”。然而,企業內部數據往往分散在不同系統、不同格式、甚至不同地域中。如果缺乏有效管理與整合,數據價值就無法真正釋放。這時,“數據集成”應運而生,它…

技術成長戰略是什么?

文章目錄技術成長戰略是什么?1. 前言2. 跟技術大牛學成長戰略2.1 系統性能專家案例2.2 從開源到企業案例2.3 技術媒體大V案例2.4 案例小結3. 學習金字塔和刻意訓練4. 戰略思維的誕生5. 建議技術成長戰略是什么? 1. 前言 在波波的微信技術交流群里頭&am…

從0到1打造一臺機器人走起來

聚焦仿人雙足機器人,著重解決其下肢魯棒行走中仿真到實機間隔(SimToReal gap)的誤差問題 總述 硬件:采用傅利葉智能科技一體化關節模組: 1)胯部和膝關節選用 FSA80 - 29E 電機,以承受較大扭矩; 2)大腿部分采用 FSA60 - 43E 電機,兼顧扭矩和轉速需求; 3)小腿選用 …

【Cmake】Cmake概覽

目錄 一.環境準備 1.1.Cmake安裝 1.2. VSCodeCMake插件安裝 1.3 快速樣例-helloworld?程 二. cmake的基礎命令?使用示例 2.1.文件準備 2.2.?成構建系統 2.3.編譯連接 2.4.測試Ctest模塊 2.5.測試安裝模塊 2.6.測試打包模塊 2.7 查看幫助 CMake語法簡潔清晰&…

概率核心概念學習筆記:隨機事件與樣本空間、古典概率與條件概率、全概率公式與貝葉斯公式

目錄 一、 隨機事件與樣本空間 1. 原理講解 2. 類型與關系 3. 案例計算 4. 應用場景 二、 古典概率與條件概率 1. 古典概率 (Classical Probability) 2. 條件概率 (Conditional Probability) 三、 全概率公式與貝葉斯公式 1. 全概率公式 (Law of Total Probability) …

優考試局域網系統V6.0.0版

優考試局域網系統迎來V6.0.0版本更新,核心在于提升功能性能與優化操作體驗。重點對學情分析、移動端考試支持、考試監控和答題體驗等方面進行了實用性更新,進一步提升了局域網環境下考試系統的靈活性與管理效率。 一、增加學情分析功能,教學…

Autosar之Com模塊

Com模塊主要實現了Signal在I-PDU中的封裝及解析功能,為RTE層提供了基于Signal的發送與接收接口,實現了基于Signal的網關功能,實現了PDU的不同發送模式,以及Signal濾波,Update bit,Pdu Counter等功能 圖 Com模塊層次圖 Com模塊處于AUTOSAR架構中的通信服務層,其下層模塊…

【iOS】NSRunLoop

目錄 概念 RunLoop與線程的關系 Runloop對外的接口 CFRunLoopSourceRef Source0 Source1 CFRunLoopTimer CFRunLoopObserver RunLoop的Mode 應用場景 Runloop的內部邏輯 Runloop應用 tableView延遲加載圖片,保證流暢 Timer不被ScrollView的滑動影響 A…

HTTP接口鑒權方式

幾種主流且可行的HTTP接口鑒權方式,從簡單到復雜,各有其適用場景。我將它們分為兩大類:傳統方式和現代方式。一、傳統方式這類方式簡單易用,但通常安全性較低或擴展性較差,適用于內部系統或簡單API。1. HTTP Basic Aut…

DIC技術極端環境案例分享:系泊鏈在海水環境下氫脆化性能測試

實驗結果的具體視頻可詳見以下鏈接:研索儀器DIC技術在極端條件下的應用 01 海水環境: DIC技術在海水環境下的應用核心挑戰在于惡劣的光學條件(如散射、衰減、畸變)、嚴酷的化學/生物環境(腐蝕、生物污損)…

DL00291-聯邦學習以去中心化鋰離子電池健康預測模型完整實現

聯邦學習在鋰離子電池健康預測中的應用:去中心化訓練與客戶選擇策略在鋰離子電池健康預測領域,隨著電池使用環境的多樣化以及電池狀態監測需求的不斷增長,傳統的集中式數據訓練方法逐漸顯現出局限性。為了解決數據隱私保護和大規模數據集中處…

TCP協議大全

什么是TCP?基本定義與屬性TCP(傳輸控制協議)是傳輸層的重要協議,具有面向連接(傳輸前需先建立連接,是發送方和接收方的點對點一對一連接)、基于字節流(以字節流形式傳輸數據&#xf…

當硅基生命遇見碳基萌寵:Deepoc具身智能如何重新定義“寵物監護者”

在東京某高級公寓里,一只布偶貓正優雅地踱步到智能喂食器前。令人驚訝的是,這個通體雪白的喂食器突然"活"了過來——它微微傾斜身體,用柔和的機械音發出問候,同時伸出仿生機械臂輕輕撫過貓咪的背部。這不是科幻電影場景…

線上日志排查問題

1、查異常堆棧 顯示該行及其后面的50行內容,然后通過 less 命令進行分頁查看 grep -A 50 "NullPointerException" a.log | less參數解釋: grep: 文本搜索命令-A 50: After 的意思,顯示匹配行后面的50行“NullPointerException”: 要…

LabVIEW與CAN開發燃料電池監控

?基于 LabVIEW 與 CAN 總線技術,構建了一套多組質子交換膜燃料電池(PEMFC)堆監控系統。系統采用優質硬件設備,通過 LabVIEW 的圖形化編程能力實現數據采集、實時監控與多堆切換控制,穩定可靠,為燃料電池性…

CVPR焦點 | 神經網絡新范式:輕量化與精度并行,重塑視覺任務性能天花板

關注gongzhonghao【CVPR頂會精選】神經網絡卷積想找新亮點?不妨考慮:動態結構設計。作為深度學習架構搜索與高效建模兩大熱點的結合,動態神經網絡憑借自適應推理與高效特征利用的優勢,在視覺識別、視頻理解等任務中脫穎而出&#…

機器學習之集成算法學習

一、集成學習概述集成學習(ensemble learning)通過構建并結合多個個體學習器來完成學習任務,核心思想是 “集眾家之長”—— 就像多個專家共同判斷往往比單個專家更可靠。其關鍵在于如何生成多樣化的個體學習器并設計有效的結合策略。結合策略…

Unreal Engine UE_LOG

Unreal🎮 Unreal Engine - UE_LOG📝 定義🏛 類/宏關聯? 關鍵特性🛠? 常見配置📚 使用方法🔧 基礎語法🔍 示例🪂 典型應用場景🔗 與其他組件對比?? 常見問題與注意事項…