NLP語言發展路徑分享

自然語言處理初期發展歷程

早期:離散表示

? ? ? ? one-hot(只表達“有/無”,語義完全丟失)→ n-gram(局部上下文,但高維稀疏)→ TF-IDF(考慮詞頻與權重,但不能表達詞關聯),可見,缺點非常明顯,達不到要求

過渡:分布式思想萌芽

? ? ? ?LSA等降維嘗試,引入“詞語義空間”思想,但非神經網絡。
突破:神經網絡分布式表示

NNLM(深度學習自動學語義嵌入,訓練慢)
word2vec(極大提高訓練效率與質量,催生“詞嵌入”大潮流)

主流趨勢

? ? ? ?低維、稠密、有語義的詞向量成為自然語言理解基礎,后續BERT等“上下文相關詞向量”技術,是word2vec之后更高階的語義學習。
? ? ? ?理念從“詞級one-hot”→“全局加權”→“上下文分布”→“深度學習自學表示”。

小結

? ? ? ?one-hot、n-gram、TF-IDF:簡單直觀,但稀疏、高維、語義弱。
分布式表示、NNLM、word2vec:低維稠密,語義能力強,推動深度學習NLP大發展。
? ? ?從one-hot到word2vec,是NLP詞表示從“人工特征”到“自動語義學習”的質變。

發展過程中,案例展示

一,one-hot

基本的語意:

對文本的表示:

優缺點:

二、TF-IDF

基礎公式描述

公式表達:?

優缺點分析;?

三、N-gram

基礎語法表達:

優缺點:?

語言模型:?

離散表示:

四、分布式

表示方法表示:

優缺點:

共現矩陣的表達方式

表達方式:

表達案例:?

優缺點:?

公式展現?

實現代碼?

技術實現優缺點:?

五、NNLAM

樣本案例:

公式:?

優缺點:?

六、word2vec

案例和算法圖

二次方的概率:?

?

PCA實現二維可視化?

?

優缺點?

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/bicheng/85540.shtml
繁體地址,請注明出處:http://hk.pswp.cn/bicheng/85540.shtml
英文地址,請注明出處:http://en.pswp.cn/bicheng/85540.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

如何將文件從安卓設備傳輸到電腦?

將文件從 Android 手機傳輸到 PC 是例行公事嗎?想讓文件傳輸更輕松嗎?幸運的是,您可以從本文中獲得 7 種方法,其中包含詳細的步驟,幫助您輕松了解如何將文件從 Android 傳輸到 PC,涵蓋了從無線工具到傳統 U…

【經驗分享】淺談京東商品SKU接口的技術實現原理

京東商品 SKU 接口的技術實現原理涉及數據建模、架構設計、接口協議、安全機制及性能優化等多個技術層面。以下從技術角度詳細拆解其實現邏輯: 一、SKU 數據模型與存儲架構 1. SKU 數據模型設計 核心字段定義: 基礎屬性:SKU ID、商品名稱、…

虛擬機配置node.js(前端環境搭建)

1.在windows下安裝node.js(以及npm) 修改npm鏡像為阿里云的 npm install --registryhttps://registry.npmmirror.com 2.在Linux下安裝node.js(Centos7 只支持16版本之前的) wget https://npmmirror.com/mirrors/node/v15.14.0/n…

多模態大語言模型arxiv論文略讀(129)

Task Success Prediction for Open-Vocabulary Manipulation Based on Multi-Level Aligned Representations ?? 論文標題:Task Success Prediction for Open-Vocabulary Manipulation Based on Multi-Level Aligned Representations ?? 論文作者:M…

【Redis】Redis 關于 BigKey 的實踐規約

目錄 一、BigKey 的概念 1.1 普通 key 的設計規則 1.2 BigKey 的定義 1.3 BigKey 存在的問題 二、BigKey 的發現與解決方案 第一種方式:redis-cli --bigkeys 第二種方式:scan掃描 第三種方式:第三方工具 第四種方式:網絡…

Golang 與 C/C++ 交互實踐

在軟件開發的實際場景中,我們常常會遇到需要將不同語言的優勢結合起來的情況。Golang 憑借其高效的并發性能和簡潔的語法,在網絡編程和系統開發領域備受青睞;而 C/C 則以其強大的底層操作能力,在系統資源管理方面具有獨特優勢。那…

五子棋流量主小程序單模式多模式開源版

功能和特點: 核心游戲功能: 1515 標準棋盤 黑白棋交替落子 自動判斷勝負和平局 悔棋功能 計時功能 UI 設計: 木紋風格棋盤 立體感棋子(使用陰影和漸變) 響應式布局,適配不同屏幕尺寸 勝利彈窗動畫 交互體驗…

Python古代文物成分分析與鑒別研究:灰色關聯度、嶺回歸、K-means聚類、決策樹分析

原文鏈接:tecdat.cn/?p42718分析師:Gan Tian 在文化遺產保護領域,古代玻璃制品的成分分析一直是研究中西方文化交流的關鍵課題。作為數據科學家,我們在處理某博物館委托的古代玻璃文物保護咨詢項目時,發現傳統分析方法…

RabbitMQ消息隊列實戰指南

RabbitMQ 是什么? RabbitMQ是一個遵循AMQP協議的消息中間件,它從生產者接收消息并傳遞給消費者,在這個過程中,根據路由規則進行消息的路由、緩存和持久化。 AMQP,高級消息隊列協議,是應用層協議的一個開放…

用Java將PDF轉換成GIF

為什么要將 PDF 文件轉換為 GIF 圖片? PDF 是一種矢量圖像格式(因此可以根據指定的尺寸進行渲染),而 GIF 是一種有損的、固定尺寸的位圖文件,像素值固定。因此,將 PDF 轉換為 GIF 文件時,我們需…

Redis之分布式鎖(2)

上一篇文章我們介紹了什么是分布式鎖和分布式鎖的一些基本概念。這篇文章我們來講解一下基于數據庫如何實現分布式鎖。 基于數據庫實現分布式鎖 基于數據庫實現分布式鎖可以分為兩種方式,分別是基于數據庫表和基于數據庫排他鎖。 基于數據庫表 要實現分布式鎖&…

智能檢測護航電池產業:容量設備如何提升效率與安全?

電池容量是衡量其儲能能力的重要指標,直接影響設備續航與使用壽命。電池容量檢測設備通過模擬真實使用場景,精準測量電池的充放電性能,為電池生產、質檢及回收環節提供關鍵數據支持,成為保障電池品質與安全的核心工具。 核心功能…

介紹一款免費MES、開源MES系統、MES源碼

一、系統概述: 萬界星空科技免費MES、開源MES、商業開源MES、市面上最好的開源MES、MES源代碼、適合二開的開源MES。 1.萬界星空開源MES制造執行系統的Java開源版本。 開源mes系統包括系統管理,車間基礎數據管理,計劃管理,物料控制…

構建高性能日志系統:QGroundControl日志模塊深度解析

引言:日志系統的重要性 在無人機地面站系統中,日志記錄是診斷問題、分析性能的關鍵基礎設施。QGroundControl(QGC)作為領先的開源無人機地面站軟件,其日志系統設計值得深入探討。本文將揭示QGC日志系統的核心技術&…

k8s查看內存占用前十的20個pod服務,不包括job

在 Kubernetes 中,您可以使用 kubectl 命令結合一些工具來查看內存占用前十的 Pod 服務,并排除 Job 類型的 Pod。以下是一個示例命令,您可以在終端中運行: kubectl top pods --all-namespaces --no-headers | grep -v job | sort …

Spring Boot 集成 LangChain4j 示例

文章目錄 概述一、DeepSeek API Key 獲取二、Spring Boot 集成 LangChain4j 示例三、拓展建議 概述 LangChain4j 是 LangChain 在 Java 生態下的實現,它是一個開源庫,幫助你更方便地在 Spring Boot 應用中集成大語言模型(如 OpenAI 的 GPT-4…

數據差異的iOS性能調試:設備日志導出和iOS文件管理

在復雜iOS項目中,尤其是集成多個第三方服務、使用混合數據源(本地遠程緩存)的系統里,“數據不一致”類問題極具迷惑性。一方面,數據看似可用,邏輯層也沒有明顯錯誤;另一方面,用戶層面…

二進制與生活:從數字世界到人生哲理

二進制與生活:從數字世界到人生哲理 最近重溫《少年謝爾頓》,被劇中謝爾頓與二進制對話的場景深深打動。這讓我思考:二進制這個看似冰冷的數字系統,其實與我們的生活有著千絲萬縷的聯系。今天,讓我們一起走進二進制的世…

基于SMB協議的內網存活主機探測技術研究

一、 技術背景 SMB(Server Message Block)協議是Windows環境中廣泛使用的網絡文件共享協議,默認開放于445端口。由于其在Windows系統中的核心地位,SMB協議常被用作內網探測的重要切入點。本文系統介紹多種基于SMB的存活主機探測技術,幫助安全…

IDEA21中文亂碼解決辦法

我改了很多,可能也改了一些沒用的 1.在VM options中添加-Dstdout.encodingUTF-8 -Dstderr.encodingUTF-8 2.IDEA 控制臺輸出設置為 UTF-8 打開 IDEA → File → Settings(或 CtrlAltS) 搜索 "Encoding" 設置 Project Encoding 和…