LLM - 詞向量 Word2vec

LLM - 詞向量 Word2vec

web/2025/8/19 10:38:00/文章來源:https://blog.csdn.net/zg260/article/details/140219668

1. 詞向量是一個詞的低維表示，詞向量可以反應語言的一些規律，詞意相近的詞向量之間近乎于平行。

2. 詞向量的實現：

? ? （1）首先使用滑動窗口來構造數據，一個滑動窗口是指在一段文本中連續出現的幾個單詞，這樣的單詞構成一個窗口。在這個窗口中最中間的詞叫做目標詞(Target), 其他的詞稱為上下文詞(Context)。

? ? （2）根據上下文詞（Context）預測目標詞（Target）的神經網絡模型叫做CBOW模型。

? ? （3）根據目標詞（Target）預測上下文詞（Context）的神經網絡模型叫做Skip-Gram模型。

3. CBOW模型示意：用never和late預測中間詞too的過程。

? ? （1）首先將never，late表示成onehot向量.

? ? （2）其次用這兩個onehot向量在最終要訓練的詞向量矩陣中，找到never，late對應的詞向量。然后把它們加起來做平均，這樣可以得到一個臨時的詞向量，維度和前面兩個相同。

? ? （3）用上面得到的臨時詞向量對詞表中每個詞做點乘，得到n個輸出，n是詞表大小。

? ? （4）對n個輸出做softmax，得到每個詞分類概率分布。

4. Skip-Gram模型示意：例子目標詞是Never，要預測出too，late，to， learn。過程是先讓模型去預測P(too/Never), 然后再預測P(late/Never)...

https://arxiv.org/abs/1301.3781

本文來自互聯網用戶投稿，該文觀點僅代表作者本人，不代表本站立場。本站僅提供信息存儲空間服務，不擁有所有權，不承擔相關法律責任。
如若轉載，請注明出處：http://www.pswp.cn/web/40560.shtml
繁體地址，請注明出處：http://hk.pswp.cn/web/40560.shtml
英文地址，請注明出處：http://en.pswp.cn/web/40560.shtml

如若內容造成侵權/違法違規/事實不符，請聯系多彩編程網進行投訴反饋email:809451989@qq.com，一經查實，立即刪除！

相關文章

llamaindex實戰-使用本地大模型和數據庫對話

llamaindex實戰-使用本地大模型和數據庫對話

概述本文使用NLSQLTableQueryEngine 查詢引擎來構建SQL的自然語言處理查詢。請注意，我們需要指定要與該查詢引擎一起使用的表。如果我們不這樣做，查詢引擎將提取所有架構上下文，這可能會溢出 LLM 的上下文窗口。在以下情況都可以使用NL…

閱讀更多...

如何用Java寫一個整理Java方法調用關系網絡的程序

如何用Java寫一個整理Java方法調用關系網絡的程序

大家好，我是猿碼叔叔，一位 Java 語言工作者，也是一位算法學習剛入門的小學生。很久沒有為大家帶來干貨了。最近遇到了一個問題，大致是這樣的：如果給你一個 java 方法，如何找到有哪些菜單在使用。我的第一想…

閱讀更多...

線程中如何有效避免死鎖問題

線程中如何有效避免死鎖問題

1. 理解死鎖形成的原因互斥條件：一個資源每次只能被一個線程使用。請求與保持條件：線程因請求資源而阻塞時，對已獲得的資源保持不放。不剝奪條件：線程已獲得的資源，在末使用完之前，不能強行剝奪。循環…

閱讀更多...

c++ primer plus 第15章友，異常和其他：15.1.3 其他友元關系

c++ primer plus 第15章友，異常和其他：15.1.3 其他友元關系

c primer plus 第15章友，異常和其他：15.1.3 其他友元關系提示：這里可以添加系列文章的所有文章的目錄，目錄需要自己手動添加 15.1.3 其他友元關系提示：寫完文章后，目錄可以自動生成，如何生成可…

閱讀更多...

整潔架構SOLID-單一職責原則(SRP)

整潔架構SOLID-單一職責原則(SRP)

文章目錄定義案例分析重復的假象代碼合并解決方案小結定義 SRP是SOLID五大設計原則中最容易被誤解的一個。也許是名字的原因，很多程序員根據SRP這個名字想當然地認為這個原則就是指：每個模塊都應該只做一件事。在歷史上，我們曾經這樣描…

閱讀更多...

科研繪圖系列：R語言雙側條形圖（bar Plot）

科研繪圖系列：R語言雙側條形圖（bar Plot）

介紹雙側條形圖上的每個條形代表一個特定的細菌屬，條形的高度表示該屬的LDA得分的對數值，顏色用來區分不同的分類群或組別，它具有以下優點：可視化差異：條形圖可以直觀地展示不同細菌屬在得分上的差異。強調重要性：較高的條形表示某些特征在區分不同組別中具有重要作用…

閱讀更多...

# Sharding-JDBC從入門到精通（6）-- Sharding-JDBC 水平分庫和垂直分庫。

# Sharding-JDBC從入門到精通（6）-- Sharding-JDBC 水平分庫和垂直分庫。

Sharding-JDBC從入門到精通（6）-- Sharding-JDBC 水平分庫和垂直分庫。一、Sharding-JDBC 水平分庫-分片策略配置 1、分庫策略定義方式如下 # 分庫策略，如何將一個邏輯表映射到多個數據源 spring.shardingsphere.sharding.tables.<邏…

閱讀更多...

第33集《大乘起信論》

第33集《大乘起信論》

《大乘起信論》和尚尼慈悲，諸位法師、諸位居士，阿彌陀佛！（阿彌陀佛！）請大家打開《講義》第七十四頁，子二、釋觀。本論的特色，一言以蔽之就是文簡意賅、辭約理富，就是說…

閱讀更多...

VUE2拖拽組件:vue-draggable-resizable-gorkys

VUE2拖拽組件:vue-draggable-resizable-gorkys

vue-draggable-resizable-gorkys組件基于vue-draggable-resizable進行二次開發, 用于可調整大小和可拖動元素的組件并支持沖突檢測、元素吸附、元素對齊、輔助線安裝： npm install --save vue-draggable-resizable-gorkys 全局引用： import Vue from vue import vdr fro…

閱讀更多...

嵌入式linux面試1

嵌入式linux面試1

1. linux 1.1. Window系統和Linux系統的區別 linux區分大小寫windows在dos（磁盤操作系統）界面命令下不區分大小寫； 1.2. 文件格式區分 windows用擴展名區分文件；如.exe代表執行文件，.txt代表文本文件，.…

閱讀更多...

運用Python與Keras框架打造深度學習圖像分類應用：詳盡步驟與代碼實例解析

運用Python與Keras框架打造深度學習圖像分類應用：詳盡步驟與代碼實例解析

引言隨著深度學習技術的飛速發展，其在圖像識別和分類領域的應用日益廣泛。在這一背景下，Python因其豐富的數據科學庫和強大的生態系統而成為首選編程語言之一。在本文中，我們將深入探討如何使用Python和其中的Keras深度學習框架來完成一個實…

閱讀更多...

手動將dingtalk-sdk-java jar包打入maven本地倉庫

手動將dingtalk-sdk-java jar包打入maven本地倉庫

有時候，中央鏡像庫不一定有自己需要的jar包，這時候我們就需要用到該方法，將jar打入maven本地倉庫，然后項目中，正常使用maven的引入規則。 mvn install:install-file -Dmaven.repo.local=D:\software\maven\apache-maven-3.6.3-bin\apache-maven-3.6.3\repo -DgroupId=ding…

閱讀更多...

學習筆記——交通安全分析11

學習筆記——交通安全分析11

目錄前言當天學習筆記整理 4信控交叉口交通安全分析結束語前言 #隨著上一輪SPSS學習完成之后，本人又開始了新教材《交通安全分析》的學習 #整理過程不易，喜歡UP就點個免費的關注趴 #本期內容接上一期10筆記 #最近確實太懶了，接受…

閱讀更多...

跨越數據邊界：域適應在目標檢測中的革新作用

跨越數據邊界：域適應在目標檢測中的革新作用

標題：跨越數據邊界：域適應在目標檢測中的革新作用在機器學習和計算機視覺領域，尤其是目標檢測任務中，域適應（Domain Adaptation）是一種關鍵技術，它解決了模型在不同數據分布上的泛化問題。當訓…

閱讀更多...

C語言字節對齊技術在嵌入式、網絡與操作系統中的應用與優化

C語言字節對齊技術在嵌入式、網絡與操作系統中的應用與優化

第一部分：嵌入式系統中的字節對齊嵌入式系統通常對性能和資源有著嚴格的要求。在這些系統中，字節對齊的正確使用可以顯著提高數據訪問速度，減少內存占用，并提高系統的整體效率。一、嵌入式系統中的字節對齊挑戰嵌入式系統中…

閱讀更多...

Caffeinated for Mac v2.0.6 Mac防休眠應用兼容 M1/M2/M3

Caffeinated for Mac v2.0.6 Mac防休眠應用兼容 M1/M2/M3

Caffeinated 可以防止您的 Mac 進入休眠狀態、屏幕變暗或者啟動屏幕保護。應用介紹您的屏幕是否總是在您不希望的時候變暗？那么Caffeinated就是您解決這個大麻煩的最好工具啦。Caffeinated是在Caffeine這個非常便捷、有用的工具的基礎上開發而來的。Caffeinated…

閱讀更多...

215. 數組中的第K個最大元素（中等）

215. 數組中的第K個最大元素（中等）

215. 數組中的第K個最大元素 1. 題目描述2.詳細題解3.代碼實現3.1 Python3.2 Java 1. 題目描述題目中轉：215. 數組中的第K個最大元素 2.詳細題解快速排序算法在每一輪排序中，隨機選擇一個數字 x x x，根據與 x x x的大小關系將要排序的數…

閱讀更多...

PMP–知識卡片--PDCA循環

PMP–知識卡片--PDCA循環

記憶 PDCA：計劃執行檢查調整，計劃觀察動作；plan do check action 定義 PDCA循環的含義是將質量管理分為四個過程，即計劃（Plan）、執行（Do）、檢查（Check）、處…

閱讀更多...

C++開發調試工具：GDB調試，windebug調試，adb調試

C++開發調試工具：GDB調試，windebug調試，adb調試

我們在C開發過程中時常避免不了要調試追蹤，一下介紹最主流的三種調試工具： 一.GDB調試 1.coredump文件： coredump文件是程序異常時系統產生的錯誤日志文件，即核心轉儲文件； 編譯一個debug程序，必須是debu…

閱讀更多...

使用 OpenCV 和 Python 進行車道檢測和物體檢測（YOLO）

使用 OpenCV 和 Python 進行車道檢測和物體檢測（YOLO）

本項目旨在開發一個集車道檢測與物體檢測功能于一體的智能視覺分析系統，利用先進的計算機視覺技術和深度學習模型，實現實時的道路場景理解和目標識別。系統主要依托OpenCV這一強大的計算機視覺庫，以及Python作為編程語言，融合了車…

閱讀更多...

最新文章