文本向量化(Text?Embedding):將文本數據(詞、句子、文檔)表示成向量的方法。
詞向量化將詞轉為二進制或高維實數向量,句子和文檔向量化則將句子或文檔轉為數值向量,通過平均、神經網絡或主題模型實現
【大模型開發】 一文搞懂Embedding工作原理_embedding原理-CSDN博客
torch Embedding 學習筆記
import torch
import torch.nn as nn# 假設我們有一個詞匯表,總共有 10 個詞,每個詞要映射到一個 5 維的向量中
embedding = nn.Embedding(num_embeddings=10, embedding_dim=5)# 創建索引,這里我們想查找第 1 和第 3 個詞的嵌入
indices = torch.LongTensor([1, 3])# 使用嵌入層獲取嵌入向量
embeddings = embedding(indices)print(embeddings)
https://www.cnblogs.com/luckyplj/p/13377672.html
1、Embedding的本質
"Embedding" 在字面上的翻譯是“嵌入”,但在機器學習和自然語言處理的上下文中,我們更傾向于將其理解為一種 “向量化” 或 “向量表示” 的技術,這有助于更準確地描述其在這些領域中的應用和作用。
(1)機器學習中的Embedding
原理:將離散數據映射為連續變量,捕捉潛在關系。
方法:使用神經網絡中的Embedding層,訓練得到數據的向量表示。
作用:提升模型性能,增強泛化能力,降低計算成本。
Embedding Model
在機器學習中,Embedding 主要是指將離散的高維數據(如文字、圖片、音頻)映射到低緯度的連續向量空間。這個過程會生成由實數構成的向量,用于捕捉原始數據的潛在搞關系和結構。
————————————————
? ? ? ? ? ? ? ? ? ? ? ? ? ? 版權聲明:本文為博主原創文章,遵循 CC 4.0 BY-SA 版權協議,轉載請附上原文出處鏈接和本聲明。
? ? ? ? ? ? ? ? ? ? ? ??
原文鏈接:https://blog.csdn.net/leonardotu/article/details/136165819