NLP語言發展路徑分享

NLP語言發展路徑分享

bicheng/2025/6/21 5:22:46/文章來源:https://blog.csdn.net/weixin_46300935/article/details/148676543

自然語言處理初期發展歷程

早期：離散表示

? ? ? ? one-hot（只表達“有/無”，語義完全丟失）→ n-gram（局部上下文，但高維稀疏）→ TF-IDF（考慮詞頻與權重，但不能表達詞關聯），可見，缺點非常明顯，達不到要求

過渡：分布式思想萌芽

? ? ? ?LSA等降維嘗試，引入“詞語義空間”思想，但非神經網絡。
突破：神經網絡分布式表示

NNLM（深度學習自動學語義嵌入，訓練慢）
word2vec（極大提高訓練效率與質量，催生“詞嵌入”大潮流）

主流趨勢

? ? ? ?低維、稠密、有語義的詞向量成為自然語言理解基礎，后續BERT等“上下文相關詞向量”技術，是word2vec之后更高階的語義學習。
? ? ? ?理念從“詞級one-hot”→“全局加權”→“上下文分布”→“深度學習自學表示”。

小結

? ? ? ?one-hot、n-gram、TF-IDF：簡單直觀，但稀疏、高維、語義弱。
分布式表示、NNLM、word2vec：低維稠密，語義能力強，推動深度學習NLP大發展。
? ? ?從one-hot到word2vec，是NLP詞表示從“人工特征”到“自動語義學習”的質變。

發展過程中，案例展示

一,one-hot

基本的語意:

對文本的表示:

優缺點:

二、TF-IDF

基礎公式描述

公式表達:?

優缺點分析；?

三、N-gram

基礎語法表達:

優缺點:?

語言模型:?

離散表示:

四、分布式

表示方法表示:

優缺點:

共現矩陣的表達方式

表達方式:

表達案例:?

優缺點:?

公式展現?

實現代碼?

技術實現優缺點:?

五、NNLAM

樣本案例:

公式:?

優缺點:?

六、word2vec

案例和算法圖

二次方的概率:?

?

PCA實現二維可視化?

?

優缺點?

本文來自互聯網用戶投稿，該文觀點僅代表作者本人，不代表本站立場。本站僅提供信息存儲空間服務，不擁有所有權，不承擔相關法律責任。
如若轉載，請注明出處：http://www.pswp.cn/bicheng/85540.shtml
繁體地址，請注明出處：http://hk.pswp.cn/bicheng/85540.shtml
英文地址，請注明出處：http://en.pswp.cn/bicheng/85540.shtml

如若內容造成侵權/違法違規/事實不符，請聯系多彩編程網進行投訴反饋email:809451989@qq.com，一經查實，立即刪除！

相關文章

如何將文件從安卓設備傳輸到電腦？

如何將文件從安卓設備傳輸到電腦？

將文件從 Android 手機傳輸到 PC 是例行公事嗎？想讓文件傳輸更輕松嗎？幸運的是，您可以從本文中獲得 7 種方法，其中包含詳細的步驟，幫助您輕松了解如何將文件從 Android 傳輸到 PC，涵蓋了從無線工具到傳統 U…

閱讀更多...

【經驗分享】淺談京東商品SKU接口的技術實現原理

【經驗分享】淺談京東商品SKU接口的技術實現原理

京東商品 SKU 接口的技術實現原理涉及數據建模、架構設計、接口協議、安全機制及性能優化等多個技術層面。以下從技術角度詳細拆解其實現邏輯： 一、SKU 數據模型與存儲架構 1. SKU 數據模型設計核心字段定義： 基礎屬性：SKU ID、商品名稱、…

閱讀更多...

虛擬機配置node.js（前端環境搭建）

虛擬機配置node.js（前端環境搭建）

1.在windows下安裝node.js（以及npm） 修改npm鏡像為阿里云的 npm install --registryhttps://registry.npmmirror.com 2.在Linux下安裝node.js（Centos7 只支持16版本之前的） wget https://npmmirror.com/mirrors/node/v15.14.0/n…

閱讀更多...

多模態大語言模型arxiv論文略讀（129）

多模態大語言模型arxiv論文略讀（129）

Task Success Prediction for Open-Vocabulary Manipulation Based on Multi-Level Aligned Representations ?? 論文標題：Task Success Prediction for Open-Vocabulary Manipulation Based on Multi-Level Aligned Representations ?? 論文作者：M…

閱讀更多...

【Redis】Redis 關于 BigKey 的實踐規約

【Redis】Redis 關于 BigKey 的實踐規約

目錄一、BigKey 的概念 1.1 普通 key 的設計規則 1.2 BigKey 的定義 1.3 BigKey 存在的問題二、BigKey 的發現與解決方案第一種方式：redis-cli --bigkeys 第二種方式：scan掃描第三種方式：第三方工具第四種方式：網絡…

閱讀更多...

Golang 與 C/C++ 交互實踐

Golang 與 C/C++ 交互實踐

在軟件開發的實際場景中，我們常常會遇到需要將不同語言的優勢結合起來的情況。Golang 憑借其高效的并發性能和簡潔的語法，在網絡編程和系統開發領域備受青睞；而 C/C 則以其強大的底層操作能力，在系統資源管理方面具有獨特優勢。那…

閱讀更多...

五子棋流量主小程序單模式多模式開源版

五子棋流量主小程序單模式多模式開源版

功能和特點： 核心游戲功能： 1515 標準棋盤黑白棋交替落子自動判斷勝負和平局悔棋功能計時功能 UI 設計： 木紋風格棋盤立體感棋子（使用陰影和漸變） 響應式布局，適配不同屏幕尺寸勝利彈窗動畫交互體驗…

閱讀更多...

Python古代文物成分分析與鑒別研究：灰色關聯度、嶺回歸、K-means聚類、決策樹分析

Python古代文物成分分析與鑒別研究：灰色關聯度、嶺回歸、K-means聚類、決策樹分析

原文鏈接：tecdat.cn/?p42718分析師：Gan Tian 在文化遺產保護領域，古代玻璃制品的成分分析一直是研究中西方文化交流的關鍵課題。作為數據科學家，我們在處理某博物館委托的古代玻璃文物保護咨詢項目時，發現傳統分析方法…

閱讀更多...

RabbitMQ消息隊列實戰指南

RabbitMQ消息隊列實戰指南

RabbitMQ 是什么？ RabbitMQ是一個遵循AMQP協議的消息中間件，它從生產者接收消息并傳遞給消費者，在這個過程中，根據路由規則進行消息的路由、緩存和持久化。 AMQP，高級消息隊列協議，是應用層協議的一個開放…

閱讀更多...

用Java將PDF轉換成GIF

用Java將PDF轉換成GIF

為什么要將 PDF 文件轉換為 GIF 圖片？ PDF 是一種矢量圖像格式（因此可以根據指定的尺寸進行渲染），而 GIF 是一種有損的、固定尺寸的位圖文件，像素值固定。因此，將 PDF 轉換為 GIF 文件時，我們需…

閱讀更多...

Redis之分布式鎖（2）

Redis之分布式鎖（2）

上一篇文章我們介紹了什么是分布式鎖和分布式鎖的一些基本概念。這篇文章我們來講解一下基于數據庫如何實現分布式鎖。基于數據庫實現分布式鎖基于數據庫實現分布式鎖可以分為兩種方式，分別是基于數據庫表和基于數據庫排他鎖。基于數據庫表要實現分布式鎖&…

閱讀更多...

智能檢測護航電池產業：容量設備如何提升效率與安全？

智能檢測護航電池產業：容量設備如何提升效率與安全？

電池容量是衡量其儲能能力的重要指標，直接影響設備續航與使用壽命。電池容量檢測設備通過模擬真實使用場景，精準測量電池的充放電性能，為電池生產、質檢及回收環節提供關鍵數據支持，成為保障電池品質與安全的核心工具。核心功能…

閱讀更多...

介紹一款免費MES、開源MES系統、MES源碼

介紹一款免費MES、開源MES系統、MES源碼

一、系統概述： 萬界星空科技免費MES、開源MES、商業開源MES、市面上最好的開源MES、MES源代碼、適合二開的開源MES。 1.萬界星空開源MES制造執行系統的Java開源版本。開源mes系統包括系統管理，車間基礎數據管理，計劃管理，物料控制…

閱讀更多...

構建高性能日志系統：QGroundControl日志模塊深度解析

構建高性能日志系統：QGroundControl日志模塊深度解析

引言：日志系統的重要性在無人機地面站系統中，日志記錄是診斷問題、分析性能的關鍵基礎設施。QGroundControl（QGC）作為領先的開源無人機地面站軟件，其日志系統設計值得深入探討。本文將揭示QGC日志系統的核心技術&…

閱讀更多...

k8s查看內存占用前十的20個pod服務，不包括job

k8s查看內存占用前十的20個pod服務，不包括job

在 Kubernetes 中，您可以使用 kubectl 命令結合一些工具來查看內存占用前十的 Pod 服務，并排除 Job 類型的 Pod。以下是一個示例命令，您可以在終端中運行： kubectl top pods --all-namespaces --no-headers | grep -v job | sort …

閱讀更多...

Spring Boot 集成 LangChain4j 示例

Spring Boot 集成 LangChain4j 示例

文章目錄概述一、DeepSeek API Key 獲取二、Spring Boot 集成 LangChain4j 示例三、拓展建議概述 LangChain4j 是 LangChain 在 Java 生態下的實現，它是一個開源庫，幫助你更方便地在 Spring Boot 應用中集成大語言模型（如 OpenAI 的 GPT-4…

閱讀更多...

數據差異的iOS性能調試：設備日志導出和iOS文件管理

數據差異的iOS性能調試：設備日志導出和iOS文件管理

在復雜iOS項目中，尤其是集成多個第三方服務、使用混合數據源（本地遠程緩存）的系統里，“數據不一致”類問題極具迷惑性。一方面，數據看似可用，邏輯層也沒有明顯錯誤；另一方面，用戶層面…

閱讀更多...

二進制與生活：從數字世界到人生哲理

二進制與生活：從數字世界到人生哲理

二進制與生活：從數字世界到人生哲理最近重溫《少年謝爾頓》，被劇中謝爾頓與二進制對話的場景深深打動。這讓我思考：二進制這個看似冰冷的數字系統，其實與我們的生活有著千絲萬縷的聯系。今天，讓我們一起走進二進制的世…

閱讀更多...

基于SMB協議的內網存活主機探測技術研究

基于SMB協議的內網存活主機探測技術研究

一、技術背景 SMB(Server Message Block)協議是Windows環境中廣泛使用的網絡文件共享協議，默認開放于445端口。由于其在Windows系統中的核心地位，SMB協議常被用作內網探測的重要切入點。本文系統介紹多種基于SMB的存活主機探測技術，幫助安全…

閱讀更多...

IDEA21中文亂碼解決辦法

IDEA21中文亂碼解決辦法

我改了很多，可能也改了一些沒用的 1.在VM options中添加-Dstdout.encodingUTF-8 -Dstderr.encodingUTF-8 2.IDEA 控制臺輸出設置為 UTF-8 打開 IDEA → File → Settings（或 CtrlAltS） 搜索 "Encoding" 設置 Project Encoding 和…

閱讀更多...

最新文章