NLP基礎

目錄

一、NLP 概述和應用

(一)NLP 的定義與演進歷程

(二)NLP 的多元應用領域

二、文本預處理技術

(一)文本獲取與編碼轉換

(二)文本清洗:去除雜質的精細打磨

(三)字符標準化:統一文本形態的標尺

(四)文本分段與句子拆分:構建文本邏輯框架

三、分詞

(一)分詞的基本原理與挑戰

(二)主流分詞算法剖析

(三)分詞工具實戰指南

四、拼寫糾錯

(一)拼寫錯誤類型與根源剖析

(二)拼寫糾錯算法全景掃描

(三)拼寫糾錯系統搭建與優化

五、停用詞過濾

(一)停用詞的定義與特性分析

(二)停用詞過濾策略與工具

(三)停用詞過濾效果評估與優化

六、詞的標準化

(一)詞的標準化的概念與意義闡釋

(二)詞的標準化方法全景圖

(三)詞的標準化應用場景與實戰技巧

一、NLP 概述和應用

(一)NLP 的定義與演進歷程

自然語言處理,簡而言之,是賦予計算機理解、解析并生成人類自然語言能力的學科。回溯歷史長河,NLP 的起點可追溯至 20 世紀 50 年代,當時機器翻譯領域的初步探索點燃了希望之火,科研人員渴望創造能跨越語言障礙的智能工具。然而,早期基于規則的方法很快遭遇瓶頸,面對語言的復雜性與多義性,規則數量呈爆炸式增長,難以維護。

曙光在 20 世紀 80 年代出現,統計方法的引入為 NLP 注入新活力。通過從大規模語料庫中挖掘語言規律,利用概率模型逼近語言現象,機器開始以更靈活方式處理語言。進入 21 世紀,深度學習技術如洶涌浪潮席卷 NLP 領域。神經網絡架構,尤其是循環神經網絡(RNN)及其變體長短期記憶網絡(LSTM)、門控循環單元(GRU),使得機器能捕捉文本序列長期依賴關系,推動語言模型性能大幅提升。

當下,Transformer 架構引領 NLP 進入前所未有的新紀元。其獨特的自注意力機制,摒棄傳統序列處理局限,讓并行計算成為現實,模型規模與性能呈指數級增長。以 GPT、BERT 系列模型為代表的預訓練語言模型,展現出強大語言理解與生成能力,徹底重塑 NLP 研究與應用格局。

(二)NLP 的多元應用領域

  1. 機器翻譯:打破語言壁壘的橋梁

在全球化浪潮下,機器翻譯成為跨國交流剛需。從早期簡單詞典對照式翻譯,到如今基于深度學習的神經機器翻譯(NMT),技術不斷迭代。現代系統能精準捕捉上下文語義,輸出流暢自然譯文。谷歌翻譯、百度翻譯等平臺每日處理海量請求,為商務談判、旅游出行、學術交流提供即時翻譯服務,將世界緊密相連。

  1. 情感分析:商業決策的洞察先驅

對于企業而言,消費者情緒是產品優化、品牌塑造的關鍵風向標。情感分析技術能剖析社交媒體評論、產品評測網站文字,精準判斷用戶態度傾向(正面、負面、中性)。例如,一部新電影上映,分析社交媒體相關話題熱度、評價星級,制片方能提前洞察票房潛力,影院可靈活調整排片策略;電商平臺依據用戶反饋快速定位產品痛點,驅動產品迭代升級。

  1. 智能客服:降本增效的客服革命

傳統人工客服面臨人力成本高昂、服務時間受限、情緒波動影響服務質量等問題。智能客服利用 NLP 技術讀懂用戶咨詢內容,提供 24×7 不間斷服務。像淘寶、京東等電商巨頭,智能客服解答常見問題(如訂單查詢、退換貨政策),初步篩選用戶需求,將復雜問題精準轉接人工客服,大大縮短響應時間,提升用戶滿意度,每年節省巨額人力成本。

  1. 新聞自動寫作:效率與客觀性的突破

在新聞行業,時效性關乎生存。部分財經新聞、體育賽事報道、災害快訊等可通過 NLP 驅動的自動化寫作系統生成。系統依據固定模板、預設邏輯,結合實時數據(如股市行情、比賽比分、地震震級等),瞬間產出新聞稿件。這樣不僅提高新聞發布速度,還避免人為情緒干擾,保證內容客觀性,為受眾提供及時準確資訊。

  1. 文本摘要與智能寫作輔助:知識萃取與創作靈感源泉

面對海量文獻資料,手動提煉核心要點耗時費力。文本摘要技術能一鍵生成簡潔摘要,無論是學術論文預覽、商業報告精讀,還是日常資訊瀏覽,都極大提升信息獲取效率。而智能寫作輔助工具,如語法糾錯、同義句改寫、寫作靈感推薦等功能,為創作者提供全方位支持,無論是學生撰寫作業、職場人士打磨商務文檔,或是作家創作文學作品,都能激發靈感,提升文稿質量。

二、文本預處理技術

(一)文本獲取與編碼轉換

在獲取文本數據時,來源渠道廣泛且復雜。網絡爬蟲可從網頁抓取新聞文章、論壇帖子;API 接口能對接社交媒體平臺(如微博、推特)、在線文檔庫獲取結構化文本數據。然而,不同來源文本編碼格式各異,如 UTF-8、GBK 等。編碼轉換環節至關重要,確保文本在后續處理流程中不出現亂碼。以 Python 中的 encode()decode() 方法為例,可精準完成編碼格式轉換,讓文本數據以統一編碼規范進入預處理管道。

(二)文本清洗:去除雜質的精細打磨

原始文本往往雜質遍布,如嵌入的 HTML 標簽、CSS 樣式代碼,這些非文本內容會干擾 NLP 模型訓練。利用正則表達式,可精準定位并剔除這些無用信息。同時,文本中數字、特殊符號(如標點、貨幣符號)是否保留需依應用場景而定。在輿情分析場景中,感嘆號數量及連續程度可能反映用戶情緒強度,此時需謹慎處理,切不可盲目清洗,以免丟失關鍵情感線索。

(三)字符標準化:統一文本形態的標尺

語言書寫習慣差異導致文本字符形態多樣,如英文中大小寫混用、全角半角字符混雜。字符標準化工作將全文統一為小寫(或大寫),將全角字符轉為半角字符。這一過程看似微不足道,卻能有效減少詞匯表規模。以 “北京” 和 “北京 ”(末尾含空格)為例,若不標準化,模型會誤判為兩個不同詞匯,加大訓練難度,降低模型泛化能力。

(四)文本分段與句子拆分:構建文本邏輯框架

長篇文本宛如未經雕琢的原木,需先分段、拆句,才能為后續深度處理奠定基礎。文本分段依據段落空行、特定分隔符(如 “###”)識別不同邏輯單元,如文章章節、新聞段落。句子拆分則聚焦標點符號(句號、問號、感嘆號等),將文本拆解為獨立句子序列。例如,在訓練語言模型時,以句子為單位組織訓練數據,模型能精準學習句子內部語法結構、詞匯搭配規律,生成自然流暢文本。

三、分詞

(一)分詞的基本原理與挑戰

分詞是將文本切分為語義合理詞匯序列的過程,是中文 NLP 特殊且關鍵環節。與英文以空格天然分隔單詞不同,中文詞匯連續書寫,如何精準劃分實屬難題。基于詞典匹配的分詞方法,利用預定義詞典(如包含常用詞匯、專業術語等)進行正向或反向掃描匹配。正向最大匹配法從左到右取最長可能詞匯,反向最大匹配法則從右往左掃描,兩者各有優勢,常結合使用提升分詞精準度。

然而,詞典方法難以應對新詞發現、歧義消解等挑戰。例如,“人民法院” 這個詞匯,若單純按詞典匹配,可能被錯誤切分為 “人民 / 法院”,此時需借助統計語言模型計算不同切分方式下句子概率,選擇概率最大切分路徑。此外,領域新詞(如新興科技名詞 “元宇宙”)大量涌現,動態更新詞典成為分詞技術優化必然趨勢。

(二)主流分詞算法剖析

  1. 基于統計的分詞算法

隱馬爾可夫模型(HMM)是經典統計分詞方法。它假設文本生成過程符合馬爾可夫性質,將分詞任務建模為隱狀態序列(詞匯切分狀態)識別問題。通過訓練大量已標注語料,學習狀態轉移概率(從一個分詞狀態轉移到另一個狀態的概率)和觀測概率(對應狀態生成特定字的概率),對未見過文本進行分詞預測。盡管 HMM 模型簡單高效,但因假設狀態轉移僅依賴前一個狀態,對長距離依賴關系捕捉力不足。

條件隨機場(CRF)模型應運而生,突破 HMM 局限。CRF 將分詞任務視為序列標注問題,考慮整個句子全局特征。可引入豐富特征模板,如字 n 元組特征、詞匯位置特征、上下文字特征等,模型通過最大化標注序列條件概率進行訓練。在實際應用中,CRF 模型分詞精度較 HMM 有顯著提升,尤其在處理歧義切分場景表現卓越。

  1. 基于深度學習的分詞算法

深度學習浪潮席卷分詞領域,循環神經網絡(RNN)及其變體長短期記憶網絡(LSTM)成為主流。LSTM 通過門控機制有效緩解梯度消失問題,能捕捉文本序列長期依賴關系。以雙向 LSTM 為例,同時考慮文本前后向語境信息,為每個字生成上下文感知的嵌入表示,再經全連接層輸出分詞標簽(如 “B” 表示詞匯起始,“M” 表示詞匯中間,“E” 表示詞匯結尾,“S” 表示單字詞)。模型經海量數據訓練后,自動學習詞匯切分模式,無需手工構建詞典,對新詞、生僻詞有較強適應能力。

Transformer 架構的出現為分詞技術帶來新變革。其自注意力機制摒棄序列處理局限,讓模型并行計算所有字的相互關系。例如,BERT 模型通過預訓練語言模型任務(如掩蓋部分詞匯預測)學習文本深層語義表示,下游分詞任務可微調 BERT 模型,利用其強大的上下文理解能力精準切分詞匯。相比 LSTM,Transformer 架構分詞模型在大規模數據場景下性能更為優異,且易于擴展到多語言分詞任務。

(三)分詞工具實戰指南

在實際開發中,眾多成熟分詞工具可供選擇。以 Python 生態為例,Jieba 分詞庫因其簡單易用、效率較高成為入門首選。它支持精確模式、全模式、搜索引擎模式等多種分詞模式。精確模式基于詞典進行高精度切分;全模式將文本切分為所有可能詞匯組合;搜索引擎模式結合 Jieba 自帶算法和拼音庫,模擬搜索引擎分詞策略,適用于構建搜索引擎索引場景。

HanLP 分詞工具則功能更為強大,集成中文處理豐富功能。除高精度分詞外,還支持詞性標注、命名實體識別等任務。它基于 CRF 算法實現分詞,提供豐富自定義詞典接口,方便用戶根據特定領域詞匯擴充詞典。例如,在醫療文本處理場景,加載醫學專業詞匯詞典后,HanLP 能精準切分醫學術語,為后續病歷分析、醫學文獻挖掘提供堅實基礎。

四、拼寫糾錯

(一)拼寫錯誤類型與根源剖析

拼寫錯誤在文本數據中司空見慣,主要分為以下幾類:

  1. 字符替換錯誤:如將 “世界” 錯寫為 “世jie”,這種錯誤通常源于鍵盤輸入時手指誤觸相鄰按鍵。中英文鍵盤布局差異(如中文拼音輸入法中,字母鍵分布對應不同拼音)加大了此類錯誤發生概率。

  2. 字符插入與缺失錯誤:輸入時多敲一個字符(如 “哈嘍” 寫成 “哈嘍o”)或遺漏字符(如 “哈嘍” 寫成 “哈咯”),前者可能是手誤長按,后者或許是輸入習慣使然。在快速輸入場景(如手機聊天、在線客服快速回復)下,此類錯誤尤為常見。

  3. 字符顛倒錯誤:如 “左右” 寫成 “右左”,這多因輸入時思維與手部動作不協調導致。尤其在輸入較長詞匯或固定短語時,大腦對整體詞匯印象模糊,手指操作順序顛倒,產生此類錯誤。

這些錯誤根源復雜多樣,既有用戶輸入習慣差異,如不同年齡段用戶熟悉輸入法程度不同,年輕群體偏好拼音輸入法便捷性,老年群體可能因視覺障礙誤觸鍵盤;也有輸入設備精度參差,如智能手表小尺寸觸摸屏、機械鍵盤軸體觸發靈敏度差異,均影響輸入準確性。

(二)拼寫糾錯算法全景掃描

  1. 基于規則的糾錯方法

基于規則的拼寫糾錯方法依賴專家知識,構建詳細糾錯規則庫。例如,針對常見同音字混淆(如 “在” 與 “再”),制定替換規則;對固定搭配錯誤(如 “迫不及待” 被寫成 “迫不急待”),設置短語級校正規則。規則方法對特定領域、固定模式錯誤糾正效果顯著,但面對語言變化、新詞涌現(如網絡熱詞 “yyds” 初始階段常被錯誤拼寫為 “yysd”),規則更新維護成本高昂,難以適應動態文本環境。

  1. 基于統計的糾錯算法

統計方法從大規模文本語料中挖掘詞匯共現概率、語序模式等信息。諾依曼拼寫糾錯模型通過計算候選詞匯與上下文詞匯共現概率,篩選出最符合語境的正確詞匯。它假設正確詞匯與周邊詞匯搭配更為高頻,對短語級錯誤(如 “高速公路上面” 應為 “高速公路上”)糾正能力較強。但該方法對語料庫質量、規模要求極高,若語料偏向特定領域(如科技文獻),則對通用文本糾錯泛化能力受限。

  1. 基于深度學習的糾錯模型

深度學習為拼寫糾錯開辟新路徑。序列到序列(Seq2Seq)模型架構,以輸入錯誤文本序列為編碼器輸入,輸出正確文本序列為解碼器目標,通過訓練海量錯誤 - 正確文本對,自動學習文本糾錯模式。引入注意力機制后,模型能聚焦錯誤關鍵位置,提升糾錯精準度。然而,Seq2Seq 模型訓練數據獲取難度較大,需人工標注錯誤文本,成本較高。此外,模型生成正確文本時可能存在多樣性不足問題,對一詞多義場景(如 “蘋果” 可指水果或品牌)糾錯易產生歧義。

BERT 等預訓練語言模型在拼寫糾錯領域展現強大潛力。利用其深層語義理解能力,結合糾錯微調任務(如 masking 錯誤字符預測正確字符),BERT 模型能精準定位并修正拼寫錯誤。與傳統方法相比,預訓練模型優勢在于利用大規模無監督語料學習通用語言知識,僅需少量標注數據微調即可適應特定糾錯任務。但模型對計算資源需求大,在移動端或資源受限設備部署面臨挑戰。

(三)拼寫糾錯系統搭建與優化

搭建拼寫糾錯系統需綜合運用多種技術。首先,構建基礎文本處理流水線,對輸入文本進行清洗、分詞預處理,去除無關符號干擾,精準切分詞匯為糾錯原子單元。接著,集成多種糾錯算法模塊,如先用高效規則過濾常見錯誤,再調用深度學習模型處理復雜錯誤場景。系統需設計智能路由機制,依據文本特征(如文本長度、領域屬性、錯誤疑似程度)動態選擇最優糾錯路徑,平衡糾錯速度與精度。

為持續優化系統,建立用戶反饋閉環至關重要。收集用戶手動修改后的正確文本,作為新訓練數據反哺模型迭代。同時,監控系統糾錯性能指標(如準確率、召回率、響應時間),定期評估不同算法模塊貢獻度,對薄弱環節重點優化。例如,發現系統對新興網絡熱詞拼寫錯誤糾正能力不足,可定向采集網絡文本語料,擴充詞匯庫并針對性訓練模型,提升系統對語言演變適應能力。

五、停用詞過濾

(一)停用詞的定義與特性分析

停用詞是文本中高頻出現卻缺乏實質語義貢獻的詞匯集合,如中文中的 “的、地、得、了、在、上、和、與、而、或”,英文中的 “the、a、an、in、on、at、and、but、or”。這些詞匯在文本中充當語法粘合劑,維系句子結構完整性,但對文本主題理解、語義分析任務價值有限。在文本分類中,停用詞無法體現類別區分度;在信息檢索場景,包含大量停用詞的查詢向量會增加檢索空間維度,降低檢索效率。

停用詞的特性因語言而異。中文停用詞多為結構助詞、時態助詞、并列連詞,通常占據文本詞匯量 30% - 40%;英文停用詞涵蓋冠詞、介詞、簡單連詞等,占比稍低,約 20% - 30%。不同文本類型停用詞分布也存在差異,文學作品中情感語氣詞(如 “啊、呢、吧”)出現頻率較高,而學術論文中邏輯連接詞(如 “因此、然而、綜上所述”)更為密集。這種差異性要求停用詞過濾策略依應用場景靈活調整。

(二)停用詞過濾策略與工具

  1. 固定停用詞表篩選策略

最常用方法是基于固定停用詞表過濾。眾多公開停用詞表資源可供選擇,如中文的 “哈工大停用詞表”“中文通用停用詞表”,英文的 “NLTK 英文停用詞表”“SmartStoplist”。這些詞表經專家精心整理,涵蓋通用停用詞。在實際應用中,只需加載詞表,對文本分詞后詞匯進行逐一匹配,剔除命中詞匯。該方法簡單高效,但對于特定領域文本(如醫學文獻中 “的” 字在某些解剖結構描述中實為關鍵詞匯),易產生誤傷,丟失重要語義信息。

  1. 基于詞頻統計的動態過濾策略

針對固定詞表局限,可采用基于詞頻統計的動態策略。首先對大規模領域文本語料進行詞頻統計,篩選出超高頻詞匯(如詞頻排名前 100 的詞匯)作為候選停用詞。結合文檔頻率(DF)計算,若某個詞匯在多數文檔中頻繁出現且對文檔主題區分度低(如 DF 值極高),則判定其為停用詞。此方法能自適應領域文本特征,挖掘出領域特有停用詞,但計算成本較高,需處理海量文本統計信息。

  1. 停用詞過濾工具實戰

在 Python 生態中,NLTK 與 SpaCy 是處理停用詞的利器。NLTK 提供多語言停用詞表訪問接口,通過簡單函數調用(如 nltk.corpus.stopwords.words('language'))即可加載對應語言停用詞列表,與文本詞匯列表進行集合運算,快速完成過濾。SpaCy 則在加載語言模型時自帶停用詞功能,其 Lexeme.is_stop 屬性可判斷詞匯是否為停用詞。例如,在處理一篇新聞文本時,使用 SpaCy 進行分詞標注,同步利用停用詞標注屬性過濾停用詞,后續提取關鍵詞、構建文本向量時僅保留關鍵語義詞匯,提升文本表示質量。

(三)停用詞過濾效果評估與優化

評估停用詞過濾效果需從文本語義完整性、任務性能提升兩方面入手。構建語義相似度評估數據集,包含原始文本與人工過濾停用詞后的高質量文本樣本對。利用余弦相似度計算原始文本向量(未過濾停用詞)與過濾后文本向量相似度,若相似度維持在較高水平(如 0.8 以上),說明停用詞過濾未對核心語義造成嚴重破壞。同時,在下游任務(如文本分類、聚類)中對比過濾前后的模型性能(準確率、F1 值、輪廓系數等指標),若性能顯著提升,則證明停用詞過濾策略有效。

為優化過濾效果,可結合人工校驗與算法微調。定期抽樣停用詞過濾后文本,組織領域專家人工評估語義準確性,發現誤過濾關鍵詞匯后,將其移出停用詞表或調整過濾規則權重。例如,在金融領域文本處理中,發現 “股” 字常被錯誤過濾(如 “股票” 被切分為 “股” 和 “票” 后,“股” 又被停用詞表剔除),可通過擴充領域自定義詞匯表、設置詞組過濾白名單等方式修正錯誤,持續優化停用詞過濾系統,使其精準服務于特定 NLP 任務。

六、詞的標準化

(一)詞的標準化的概念與意義闡釋

詞的標準化旨在將詞匯不同形態統一為標準形式,消除詞匯變體帶來的語義理解障礙。在英語中,詞形變化尤為豐富,如動詞不同時態(“run - runs - ran - running”)、名詞不同數(“child - children”)、形容詞不同級(“big - bigger - biggest”)。在中文里,量詞搭配差異(如 “一只鳥” 與 “一個鳥”)、同義詞使用場景差異(如 “大夫” 與 “醫生”)也構成詞匯標準化難題。

從 NLP 任務角度看,詞的標準化意義重大。在文本挖掘任務中,若不統一詞匯形態,如統計詞頻時 “run” 和 “running” 會被視為不同詞匯,導致詞頻分布碎片化,無法準確衡量核心概念出現頻率;在語義相似度計算場景,詞匯形態差異會讓語義關聯詞匯(如 “大” 與 “巨大”)被錯誤判定為低相似度,影響文本匹配精度。通過標準化處理,詞匯映射到統一語義空間,為后續語義分析、知識圖譜構建等任務筑牢根基。

(二)詞的標準化方法全景圖

  1. 詞形歸一化(Stemming)

詞形歸一化是早期詞匯標準化方法,其核心思想通過簡單規則裁剪詞匯后綴,將詞匯還原為詞干形式。以英語為例,Porter 算法是最經典詞形歸一化方法。它定義一系列規則,如去 “s” 后綴(“runs” → “run”)、去 “ing” 后綴(“running” → “run”)。該方法計算效率高,適用于大規模文本預處理場景。但其規則簡單粗暴,常導致錯誤歸一化,如 “university” 被裁剪為 “univers”,失去語義可讀性;面對復雜詞形變化(如不規則動詞 “go - went - gone”)無能為力。

  1. 詞形還原(Lemmatization)

詞形還原在詞形歸一化基礎上顯著進步,其目標是將詞匯還原為詞典中標準原型(詞形還原形式)。它依賴詞性標注信息,結合詞匯語義規則進行還原。例如,在分詞標注過程中,若判定 “running” 為動詞現在分詞形式,將其還原為動詞原形 “run”;若 “running” 作為名詞(如 “a running of the river”),則保持不變。相比詞形歸一化,詞形還原結果語義準確性更高,但因依賴詞性標注,計算成本相應增加,且對詞性標注模型精度敏感。

  1. 同義詞詞林與詞匯替換

針對同義詞問題,同義詞詞林(如 HowNet、WordNet)成為有力工具。HowNet 涵蓋豐富中文概念及其屬性義原描述,WordNet 則構建英文詞匯同義詞集合(Synset)與詞匯語義關系網絡。基于這些資源,可將文本中詞匯替換為所屬同義詞集合的標準代表詞。例如,在處理旅游評論文本時,將 “美麗”“漂亮”“好看” 等詞匯統一替換為 “美” 這一標準詞匯,增強文本語義一致性。然而,同義詞替換需謹慎考慮上下文語境,避免改變句子原意,如 “他打籃球很厲害” 中 “厲害” 若替換為 “優秀”,語義有所偏差。

(三)詞的標準化應用場景與實戰技巧

  1. 搜索引擎優化(SEO)與信息檢索

在搜索引擎領域,詞的標準化是提升檢索精準度核心環節。用戶輸入檢索詞時,搜索引擎后臺對檢索詞進行標準化處理,同時對索引文本詞匯也標準化存儲。例如,用戶搜索 “run exercise benefits”,搜索引擎將 “running”“runner” 等相關詞匯統一映射到 “run” 詞干,擴大檢索范圍,提高召回率。在企業知識庫檢索場景,對知識庫文檔詞匯標準化后構建索引,員工查詢時能快速定位所需知識條目,提升知識共享效率。

  1. 文本分類與情感分析

在文本分類任務中,詞的標準化有助于降低詞匯空間維度,減少模型過擬合風險。以新聞文本分類為例,將不同形態詞匯統一標準化,模型能更精準捕捉類別相關關鍵詞,提升分類準確率。在情感分析場景,對情感詞匯(如 “高興 - 高興的 - 高興地”)標準化后,情感詞典匹配更準確,情感傾向判斷更可靠。例如,在電商評論情感分析中,將 “超好吃”“非常美味” 等詞匯統一標準化為 “美味” 層級,構建簡潔高效情感詞匯體系,增強模型泛化能力。

  1. 詞的標準化工具與實戰代碼演示

在 Python 中,NLTK 庫提供詞形歸一化和詞形還原功能。利用 nltk.stem.PorterStemmer 類實現 Porter 算法詞形歸一化,代碼如下:

from nltk.stem import PorterStemmerstemmer = PorterStemmer()
word = "running"
stemmed_word = stemmer.stem(word)
print(stemmed_word)  # 輸出:run

對于詞形還原,借助 nltk.stem.WordNetLemmatizer 類,結合詞性標注(如將 “running” 標注為動詞),精確還原詞匯原型:

from nltk.stem import WordNetLemmatizerlemmatizer = WordNetLemmatizer()
word = "running"
pos = "v"  # 動詞標注
lemmatized_word = lemmatizer.lemmatize(word, pos=pos)
print(lemmatized_word)  # 輸出:run

在處理中文同義詞標準化時,可利用 HowNet 接口工具。通過匹配詞匯在 HowNet 概念庫中的義原信息,將同義詞匯替換為標準概念名稱。例如,在處理中醫文本時,將 “桂枝”“肉桂” 等詞匯映射到 “肉桂” 這一標準中藥名,方便后續構建中藥知識圖譜、進行藥方分析等任務,提升中文文本語義統一性與機器可理解度。

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/bicheng/81543.shtml
繁體地址,請注明出處:http://hk.pswp.cn/bicheng/81543.shtml
英文地址,請注明出處:http://en.pswp.cn/bicheng/81543.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

【數據結構與算法】ArrayList 與順序表的實現

目錄 一、List 接口 1.1 List 接口的簡單介紹 1.1 常用方法 二、順序表 2.1 線性表的介紹 2.2 順序表的介紹 2.3 順序表的實現 2.3.1 前置條件:自定義異常 2.3.2 順序表的初始化 2.3.2 順序表的實現 三、ArrayList 實現類 3.1 ArrayList 的兩種使用方式 3.2 Array…

Linux518 YUM源倉庫回顧(需查)ssh 服務配置回顧 特定任務配置回顧

計劃配倉庫YUM源 為什么我在/soft文件夾下 使用yum install --downloadonly --downloaddir /soft samba 為什么文件夾下看不到samba文件 exiting because “Download Only” specified 計劃過 計劃配SSH 參考 ok了 計劃配置特定任務解決方案 code: 兩端先配好網絡 測試好s…

如何完美安裝GPU版本的torch、torchvision----解決torch安裝慢 無法安裝 需要翻墻安裝 安裝的是GPU版本但無法使用的GPU的錯誤

聲明: 本視頻靈感來自b站 如何解決所述問題 如何安裝對應版本的torch、torchvison 進入pytorch官網 進入歷史版本 這里以cuda11.8 torch 2.1.0為例演示 根據文檔找到要安裝的torch、torchvison版本 但不是使用命令行直接安裝 命令行直接安裝可能面臨著 安裝慢…

【iOS(swift)筆記-9】WKWebView無法訪問網絡

對于iOS 在info中添加App Transport Security Settings,然后在App Transport Security Settings里添加Allow Arbitrary Loadstrue 對于macOS 除了上面的操作,還需在項目信息的App Sandbox里有個Network打鉤選項

buck變換器的simulink/matlab仿真和python參數設計

什么是Buck電路? BUCK電路是一種降壓斬波器,降壓變換器輸出電壓平均值Uo總是小于輸出電壓UD。通常電感中的電流是否連續,取決于開關頻率、濾波電感L和電容C的數值。BUCK也是DC-DC基本拓撲,或者稱為電路結構,是最基本的DC-DC電路…

給個人程序加上MCP翅膀

背景 最近MCP這個詞真是到處都是,看起來特別高大上。我平時沒事的時候也一直在關注這方面的技術,知道它是怎么一回事,也懂該怎么去實現。但可惜一直抽不出時間來自己動手搞一個MCP服務。網上關于MCP的教程一搜一大把,但基本上都是…

AWS中國區CloudFront證書管理和應用指南

在AWS中國區使用CloudFront時,SSL/TLS證書的管理和應用是一個重要的環節。本文將詳細介紹如何在AWS中國區上傳、管理和應用SSL證書到CloudFront分配。 1. 準備證書文件 首先,我們需要準備好SSL證書相關的文件。通常,這包括: 私鑰文件(.key)公鑰證書文件(.crt)證書鏈文…

為什么hadoop不用Java的序列化?

Java的序列化是一個重量級序列化框架(Serializable),一個對象被序列化后,會附帶很多額外的信息(各種校驗信息,Header,繼承體系等),不便于在網絡中高效傳輸。所以&#xf…

Word壓縮解決方案

Word壓縮解決方案:基于圖片壓縮的 .docx 優化實踐 📌 背景 在日常科研寫作或項目文檔整理中,Word 文檔(.docx)往往因為插入大量高清圖表、掃描圖像、公式圖等導致文件體積過大,或者畢業學位論文查重要求上…

基于基金凈值百分位的交易策略

策略來源:睿思量化小程序 基金凈值百分位,是衡量當前基金凈值在過去一段時間內的相對位置。以近一年為例,若某基金凈值百分位為30%,意味著過去一年中有30%的時間基金凈值低于當前值,70%的時間高于當前值。這一指標猶如…

數字人技術的核心:AI與動作捕捉的雙引擎驅動(210)

**摘要:**數字人技術從靜態建模邁向動態交互,AI與動作捕捉技術的深度融合推動其智能化發展。盡管面臨表情僵硬、動作脫節、交互機械等技術瓶頸,但通過多模態融合技術、輕量化動捕方案等創新,數字人正逐步實現自然交互與情感表達。…

基于OpenCV的實時文檔掃描與矯正技術

文章目錄 引言一、系統概述二、核心代碼解析1. 導入必要庫2. 輔助函數定義3. 坐標點排序函數4. 透視變換函數5. 主程序流程 三、完整代碼四、結語 引言 在日常工作和學習中,我們經常需要將紙質文檔數字化。手動拍攝文檔照片常常會出現角度傾斜、透視變形等問題&…

jenkins pipeline實現CI/CD

在企業級的架構中,CI/CD是必不可少的一個環節,它可以讓開發人員只關注于開發,而不必去關注項目的構建和部署,從而提高開發人員的效率。 本文我們來介紹一下使用jenkins 的pipeline來進行java項目的自動構建以及部署。我們通過腳本…

InfluxDB 3 Core + Java 11 + Spring Boot:打造高效物聯網數據平臺

一、 引言:為什么選擇InfluxDB 3? 項目背景: 在我們的隧道風機監控系統中,實時數據的采集、存儲和高效查詢是至關重要的核心需求。風機運行產生的振動、傾角、電流、溫度等參數是典型的時序數據,具有高并發寫入、數據…

泰國SAP ERP實施如何應對挑戰?工博科技賦能中企出海EEC戰略

泰國正依托"東部經濟走廊(EEC)"與RCEP協定疊加優勢,為中國企業提供面向亞太市場的戰略機遇。作為2022年泰國主要外資來源國之一,中國企業通過電子制造、智能家電、數據中心及新能源車等領域的投資深度參與泰國"4.0…

【設計模式】- 創建者模式

單例模型 餓漢式 靜態方法創建對象 public class Singleton {// 私有構造方法private Singleton(){}private static Singleton instance new Singleton();// 提供一個外界獲取的方法public static Singleton getInstance(){return instance;} }靜態代碼塊創建對象 public …

邏輯與非邏輯的彌聚

非邏輯彌聚與邏輯彌聚是復雜系統中兩種不同的信息整合方式。邏輯彌聚側重于通過明確的規則、規律和結構化方法,將分散的信息或功能進行有序的組織和集中處理,強調理性和確定性。而非邏輯彌聚則更多地涉及情感、直覺、經驗等非線性、非結構化的因素&#…

Linux進程信號(三)之信號產生2

文章目錄 4. 由軟件條件產生信號5. 硬件異常產生信號模擬一下除0錯誤和野指針異常除0錯誤野指針錯誤 總結思考一下 4. 由軟件條件產生信號 SIGPIPE是一種由軟件條件產生的信號,在“管道”中已經介紹過了。 軟件條件不就緒,很明顯這個軟件條件沒有直接報錯&#xff…

讀取18B20的問題,時鐘太慢了

使用MSP430,1M時鐘,在讀取18B20數據時,一直存在問題,使用邏輯分析儀讀取的數據也是莫名其妙,查看電路圖和器件也沒有發現問題,就這樣斷斷續續的卡了一周多。 今天忽然想把時鐘升一下試試,原來1…

第12章 Java多線程機制

12.1 進程與線程 4種狀態:新建、運行、中斷和死亡。 (新建、運行、中斷和死亡) 建立線程的兩種方法:用Thread類或其子類。 線程新建后,必須調用 start () 方法使其進入就緒隊列,才有機會獲得 CPU 資源&a…