TF-IDF / Term Frequency - Inverse Document Frequency
作用:是自然語言處理NLP中常用的文本特征提取工具,用于將文本數據轉換為數據向量。
核心思想:是通過統計詞頻和逆文檔頻率來量化詞語在文本中的重要性。
-
T F ? I D F ( t , d ) = T F ( t , d ) ? I D F ( t ) TF-IDF_{(t,d)} = TF_{(t,d)} * IDF_{(t)} TF?IDF(t,d)?=TF(t,d)??IDF(t)?
-
意義:
– 高頻詞(TF高)但罕見(IDF高)的詞語會獲得高權重(e.g.專業術語);
– 高頻但常見的詞語(如“的”、“是”)會被抑制。 -
子公式1/2
– T F ( t , d ) = 詞 t 在文檔 d 中出現次數 文檔 d 的總詞語 TF_{(t,d)} = \dfrac{詞t在文檔d中出現次數}{文檔d的總詞語} TF(t,d)?=文檔d的總詞語詞t在文檔d中出現次數? -
子公式2/2
– I D F ( t ) = 總文檔數 包含詞 t 的文檔數 + 1 + 1 IDF_{(t)} = \dfrac{總文檔數}{包含詞t的文檔數+1}+1 IDF(t)?=包含詞t的文檔數+1總文檔數?+1