【每天一個知識點】embedding與representation

“Embedding（嵌入）”與“Representation（表示）”在機器學習、自然語言處理（NLP）、圖神經網絡等領域常被使用，它們密切相關，但語義上有一定區別。

舉例：

One-hot編碼是最簡單的表示方法。

TF-IDF、詞袋模型是手工設計的表示方法。

用BERT提取出的句向量也是一種表示。

狹義子集：embedding是representation的一種，通常指低維、稠密、連續空間中的向量表示，是通過學習從高維稀疏空間“嵌入”到低維稠密空間的過程。
學習方式：通常是通過模型自動學習得到的表示，比如Word2Vec、Node2Vec、BERT等。

舉例：

Word2Vec為詞學習得到的300維稠密向量，就是詞的embedding。

圖中的節點embedding是將每個節點嵌入到一個低維空間，保留結構與語義信息。

項目	Representation（表示）	Embedding（嵌入）
定義	一切形式的特征表示	一種低維、稠密的特征表示
范圍	廣義概念，包含embedding	representation的子集
維度	可高可低（如one-hot是高維稀疏）	通常低維
是否稠密	可稠密也可稀疏	通常稠密
生成方式	可人工設計或模型學習	通常通過模型學習
示例	TF-IDF、BERT向量、圖特征	Word2Vec、Node2Vec、Transformer輸出向量

所有的embedding都是representation，但不是所有的representation都是embedding。

本文來自互聯網用戶投稿，該文觀點僅代表作者本人，不代表本站立場。本站僅提供信息存儲空間服務，不擁有所有權，不承擔相關法律責任。
如若轉載，請注明出處：http://www.pswp.cn/web/80589.shtml
繁體地址，請注明出處：http://hk.pswp.cn/web/80589.shtml
英文地址，請注明出處：http://en.pswp.cn/web/80589.shtml

如若內容造成侵權/違法違規/事實不符，請聯系多彩編程網進行投訴反饋email:809451989@qq.com，一經查實，立即刪除！