“Embedding(嵌入)”與“Representation(表示)”在機器學習、自然語言處理(NLP)、圖神經網絡等領域常被使用,它們密切相關,但語義上有一定區別。
一、定義
1. Representation(表示)
-
廣義概念:指將現實世界中某種對象(如文本、圖像、節點等)轉換為機器可以處理的數學形式,通常是向量或張量。
-
形式:可以是稀疏的(如one-hot向量),也可以是稠密的;可以是人為設計的特征,也可以是學習得到的。
舉例:
One-hot編碼是最簡單的表示方法。
TF-IDF、詞袋模型是手工設計的表示方法。
用BERT提取出的句向量也是一種表示。
2. Embedding(嵌入)
-
狹義子集:embedding是representation的一種,通常指低維、稠密、連續空間中的向量表示,是通過學習從高維稀疏空間“嵌入”到低維稠密空間的過程。
-
學習方式:通常是通過模型自動學習得到的表示,比如Word2Vec、Node2Vec、BERT等。
舉例:
Word2Vec為詞學習得到的300維稠密向量,就是詞的embedding。
圖中的節點embedding是將每個節點嵌入到一個低維空間,保留結構與語義信息。
二、對比總結
項目 | Representation(表示) | Embedding(嵌入) |
---|---|---|
定義 | 一切形式的特征表示 | 一種低維、稠密的特征表示 |
范圍 | 廣義概念,包含embedding | representation的子集 |
維度 | 可高可低(如one-hot是高維稀疏) | 通常低維 |
是否稠密 | 可稠密也可稀疏 | 通常稠密 |
生成方式 | 可人工設計或模型學習 | 通常通過模型學習 |
示例 | TF-IDF、BERT向量、圖特征 | Word2Vec、Node2Vec、Transformer輸出向量 |
三、一句話總結
所有的embedding都是representation,但不是所有的representation都是embedding。