目錄
1.NLP 基礎知識點
為什么需要自然語言處理?
自然語言處理有哪些分類?
自然語言處理有哪些實際應用?
為什么需要自然語言處理?
自然語言處理有哪些分類?
自然語言處理有哪些實際應用?
自然語言處理的技術/工作原理是什么?
2.NLP文本轉化為詞向量的方法
2.1 one-hot
2.1.1one-hot 優點
2.1.2one-hot 缺點
2.2TF-IDF
2.2.1TF-IDF優點
2.2.2TF-IDF缺點
2.3 N-gram優缺點
2.3.1語言模型
2.4分布式 ?編輯
2.4.1分布式優缺點
2.4.2共現矩陣
2.4.3共現矩陣優缺點
2.4.4共現矩陣+SVD(奇異值降維)的代碼實現
2.4.4 .1共現矩陣+SVD的優缺點
2.5NNLM(深度學習模型)
2.5.1NNLM模型主要流程
2.5.2NNLM的優缺點
2.6word2vec
2.6.1CBOW的word2vec框架 (哈夫曼樹優化)
2.6.2skip-gram優化的word2vec框架
2.6.3 word2vec 的優缺點
1.NLP 基礎知識點
自然語言處理(Natural Language Processing,簡稱NLP)屬于人工智能的一個分支,旨在讓計算機能夠理解并處理人類語言,從中提取出有用的信息,幫助人類更高效地處理各種任務。
為什么需要自然語言處理?
自然語言處理通過對人類日常語言進行理解和響應,為人類帶來更多的便利和創新。隨著人工智能的不斷發展,自然語言處理也逐漸融入到電商、文娛、公安、醫療、電力等各大行業領域中,幫助人類高效地處理信息。
自然語言處理具有以下優勢:
支持自然語言交互、簡便易用:NLP技術使得計算機可以理解和處理人類語言,從而實現了人與計算機的自然語言交互。用戶可以通過人類語言的方式表達自己的需求,無需使用計算機指令或編程知識,提高了人機交互的效率和易用性。
支持海量信息分析和處理:NLP技術可以自動化處理大量的文本和語音信息,是處理、分析和挖掘數據中有價值信息的關鍵工具。
提供個性化服務:NLP技術可以根據用戶的個人偏好和習慣進行個性化設置和推薦,提供更加個性化的服務。例如,智能客服可以根據用戶的語言風格和問題類型提供定制化的回答和解決方案。
自然語言處理有哪些分類?
詞性標注:通過詞性標注服務,用戶可以快速為每一個詞附上對應的詞性,結合分詞服務,可以快速進行更深層次的文本挖掘處理,有效實現新詞發現、歧義消除等能力。
命名實體識別:命名實體服務可以幫助您快速識別文本中的實體,進而挖掘各實體間的關系,是進行深度文本挖掘,知識庫構建等常用自然語言處理領域里的必備工具。
情感分析:基于海量大數據研發,為有情感分析需求的產品提供服務。能夠對短文本情感的正負向及中性進行分析,識別和分析用戶的情感狀態和意圖,并給出結果。在輿情監控、話題審核、口碑分析聚類等商業領域有廣大的應用空間對于企業了解用戶滿意度、產品評價等方面非常有幫助。
中心詞提取:基于海量數據,使用電商標題中心詞以及類目進行訓練,通過給每個詞計算一個相關性分數來衡量每個詞與句子的相關性程度,進而識別并提取出句子的中心詞。適用于提取電商搜索query、標題及其他類似短文本的中心詞。
文本信息抽取:結合AI技術,通過自動閱讀文檔內容,將用戶關心的關鍵核心信息進行提取,簡化機械性和重復性的工作,協助企業完成文檔審閱及錄入工作。
商品評價解析:商品評價解析主要用于分析消費者反饋的評價、點評內容,同時也可以對類似微博的口語化、短文本進行分析。
關系抽取:從文本中提取實體之間的關系,例如人物關系、公司與股票價格之間的關系等。
知識圖譜構建:自然語言處理技術可以自動抽取和整理知識圖譜,幫助人們更好地組織和理解復雜的信息,提高知識管理的效率和質量。
商業決策支持:通過對市場和用戶需求的深入分析,自然語言處理技術可以為企業的商業決策提供有力支持,幫助企業做出更明智的決策。
自然語言處理有哪些實際應用?
自然語言在不同的行業中被廣泛應用。結合不同行業的特點,主要包含以下應用場景:
金融-簡歷抽取于合同審核比對:依靠算法分析相關非結構化文本(文檔、描述、網頁等),并從文本中獲取結果,用于銀行簡歷抽取與合同審核比對等場景,快速高效縮短審批流程,極大減少了人工成本和時間成本。
司法-信息抽取、分類:針對大量裁判文書中的判決時間、案發地點、原告信息、被告信息等信息的抽取,私有化部署,在本地化通過平臺進行文書的數據標注、模型訓練,快速對大量裁判文書進行結構化處理,大大提升審核效率。
醫療-病歷質檢/DRGs:基于非結構化文本病歷數據,通過醫學知識圖譜能力構建醫學質檢引擎,支持病歷質量管理,做到事中提醒、事后檢查,減少醫療事故,提高服務質量;同時根據病案數據進行DRGs分組,保障醫院運營及醫保正常結算。
互聯網-外呼意圖識別:在與客戶的通話過程中,通過實時語音識別客戶意圖,根據預設的流程話術精準回復,以真人語音或語音合成播報的形式與客戶進行溝通交流,從而幫助企業從海量用戶中高效、精準地觸達目標客戶,實現數據全鏈路管理。
新零售-商品評價解析:用于分析消費者反饋的評價、點評內容,同時也可以對類似微博的口語化內容、短文本進行分析。品牌商從中可以解析出商品最吸引人的賣點,以及最需要改進的地方,進而獲知當前的消費者理念,預判流行趨勢,提高購買轉化。
客戶服務:聊天機器人和虛擬客服代表利用NLP提供7x24小時的客戶服務,能夠理解和回應客戶的咨詢,減輕客服人員的工作負擔。
為什么需要自然語言處理?
自然語言處理通過對人類日常語言進行理解和響應,為人類帶來更多的便利和創新。隨著人工智能的不斷發展,自然語言處理也逐漸融入到電商、文娛、公安、醫療、電力等各大行業領域中,幫助人類高效地處理信息。
自然語言處理具有以下優勢:
支持自然語言交互、簡便易用:NLP技術使得計算機可以理解和處理人類語言,從而實現了人與計算機的自然語言交互。用戶可以通過人類語言的方式表達自己的需求,無需使用計算機指令或編程知識,提高了人機交互的效率和易用性。
支持海量信息分析和處理:NLP技術可以自動化處理大量的文本和語音信息,是處理、分析和挖掘數據中有價值信息的關鍵工具。
提供個性化服務:NLP技術可以根據用戶的個人偏好和習慣進行個性化設置和推薦,提供更加個性化的服務。例如,智能客服可以根據用戶的語言風格和問題類型提供定制化的回答和解決方案。
自然語言處理有哪些分類?
詞性標注:通過詞性標注服務,用戶可以快速為每一個詞附上對應的詞性,結合分詞服務,可以快速進行更深層次的文本挖掘處理,有效實現新詞發現、歧義消除等能力。
命名實體識別:命名實體服務可以幫助您快速識別文本中的實體,進而挖掘各實體間的關系?