特征工程四：數據特征提取TfidfVectorizer的使用

TfidfVectorizer 深度解析

TfidfVectorizer 是 scikit-learn 中用于文本特征提取的核心工具，它將原始文本轉換為 TF-IDF 特征矩陣，是自然語言處理(NLP)和文本挖掘的基礎組件。

一、核心原理

1. TF-IDF 計算

TF (Term Frequency)：詞頻，衡量詞在文檔中的出現頻率

TF(t,d) = (詞t在文檔d中出現的次數) / (文檔d中所有詞的總數)

IDF (Inverse Document Frequency)：逆文檔頻率，衡量詞的重要性
```
IDF(t) = log(總文檔數 / (包含詞t的文檔數 + 1))
```
TF-IDF：兩者乘積
```
TF-IDF(t,d) = TF(t,d) * IDF(t)
```

2. 工作流程

文本分詞(tokenization)
構建詞匯表(vocabulary)
計算每個詞的TF值
計算每個詞的IDF值
生成TF-IDF特征矩陣

二、基本用法

from sklearn.feature_extraction.text import TfidfVectorizer# 示例文本數據
corpus = ['This is the first document.','This document is the second document.','And this is the third one.','Is this the first document?'
]# 初始化向量化器
vectorizer = TfidfVectorizer()# 擬合并轉換數據
X = vectorizer.fit_transform(corpus)# 查看結果
print(vectorizer.get_feature_names_out())
# 輸出: ['and', 'document', 'first', 'is', 'one', 'second', 'the', 'third', 'this']print(X.shape)  # (4, 9) - 4個文檔，9個特征

三、關鍵參數詳解

1. 預處理參數

參數	說明	示例值
`stop_words`	停用詞處理	‘english’, [‘a’, ‘the’], None
`lowercase`	是否轉為小寫	True/False
`token_pattern`	分詞正則表達式	r’(?u)\b\w\w+\b’
`ngram_range`	n元語法范圍	(1,1) (僅單詞), (1,2) (單詞和雙詞)

2. 特征選擇參數

參數	說明	示例值
`max_df`	忽略高頻詞	0.85(比例)或50(絕對數)
`min_df`	忽略低頻詞	2(至少出現2次)
`max_features`	最大特征數	10000

3. 加權參數

參數	說明	示例值
`norm`	歸一化方式	‘l1’, ‘l2’, None
`use_idf`	是否使用IDF	True/False
`smooth_idf`	IDF平滑	True/False

四、高級應用技巧

1. 自定義分詞器

from nltk.stem import SnowballStemmer
from nltk.tokenize import word_tokenizestemmer = SnowballStemmer("english")def custom_tokenizer(text):return [stemmer.stem(word) for word in word_tokenize(text)]vectorizer = TfidfVectorizer(tokenizer=custom_tokenizer)

2. 處理中文文本

import jiebadef chinese_tokenizer(text):return [word for word in jieba.cut(text) if word.strip()]vectorizer = TfidfVectorizer(tokenizer=chinese_tokenizer)

3. 增量學習

# 初始擬合
vectorizer.partial_fit(first_batch_documents)# 增量更新
vectorizer.partial_fit(more_documents)

五、性能優化

1. 并行處理

vectorizer = TfidfVectorizer(n_jobs=-1)  # 使用所有CPU核心

2. 內存優化

# 使用HashingVectorizer替代(無狀態，適合流式數據)
from sklearn.feature_extraction.text import HashingVectorizer
hv = HashingVectorizer(n_features=10000)

3. 管道組合

from sklearn.pipeline import make_pipeline
from sklearn.naive_bayes import MultinomialNBpipeline = make_pipeline(TfidfVectorizer(max_features=10000),MultinomialNB()
)

六、實際應用案例

1. 文本分類

from sklearn.datasets import fetch_20newsgroups
from sklearn.model_selection import train_test_split# 加載數據
newsgroups = fetch_20newsgroups(subset='all')
X_train, X_test, y_train, y_test = train_test_split(newsgroups.data, newsgroups.target)# 構建模型
vectorizer = TfidfVectorizer(max_df=0.5, min_df=5, stop_words='english')
X_train_tfidf = vectorizer.fit_transform(X_train)# 使用分類器(如SVM)訓練
from sklearn.svm import LinearSVC
clf = LinearSVC().fit(X_train_tfidf, y_train)

2. 相似文檔檢索

from sklearn.metrics.pairwise import cosine_similarity# 計算文檔相似度
doc_similarities = cosine_similarity(X_train_tfidf)輸出結果類似以下：
[[1.         0.6461289  0.        ][0.6461289  1.         0.        ][0.         0.         1.        ]
]# 查找最相似文檔
def find_similar_docs(query, vectorizer, doc_matrix, top_n=3):query_vec = vectorizer.transform([query])sim_scores = cosine_similarity(query_vec, doc_matrix)top_doc_indices = sim_scores.argsort()[0][-top_n:][::-1]return top_doc_indices

七、常見問題解決

內存不足問題
- 減小 max_features
- 使用 HashingVectorizer
- 分批處理數據
處理速度慢
- 設置 n_jobs=-1 并行處理
- 增加 min_df 減少特征數
- 使用更高效的分詞器
中文處理特殊問題
- 確保使用正確分詞工具(jieba等)
- 處理停用詞時需要中文停用詞表
- 可能需要調整token_pattern

TfidfVectorizer作為文本特征提取的行業標準工具，合理使用可以顯著提升文本分析任務的效果。根據具體場景調整參數，結合其他NLP組件，能夠構建強大的文本處理流水線。

關于cosine_similarity（余弦相似度）計算的結果解釋

矩陣結構解析

假設輸入 3 個文檔：（如上文相似文檔檢索的結果）

documents = ["I love machine learning",       # 文檔1"Machine learning is amazing",   # 文檔2"I hate math"                    # 文檔3
]

輸出的相似度矩陣為：

[[1.         0.6461289  0.        ]  # 文檔1 vs (文檔1, 文檔2, 文檔3)[0.6461289  1.         0.        ]  # 文檔2 vs (文檔1, 文檔2, 文檔3)[0.         0.         1.        ]] # 文檔3 vs (文檔1, 文檔2, 文檔3)

對角線（i=j）

[0][0] = 1.0：文檔1 與自身 的相似度（完全相同）
[1][1] = 1.0：文檔2 與自身 的相似度
[2][2] = 1.0：文檔3 與自身 的相似度

非對角線（i≠j）

[0][1] = 0.6461289：文檔1 和文檔2 的相似度（有部分共同詞）
[0][2] = 0.0：文檔1 和文檔3 的相似度（無共同詞）
[1][2] = 0.0：文檔2 和文檔3 的相似度（無共同詞）

為什么是 3×3 矩陣？

因為 cosine_similarity 默認計算所有文檔兩兩之間的相似度。對于 N 個文檔，輸出矩陣形狀為 N×N，其中：

行 i 表示第 i 個文檔與其他所有文檔（包括自己）的相似度
矩陣對稱（[i][j] == [j][i]）

如何提取特定文檔對的相似度？

# 獲取文檔1和文檔2的相似度
doc1_vs_doc2 = similarity_matrix[0, 1]  # 0.6461289# 獲取文檔2和文檔3的相似度
doc2_vs_doc3 = similarity_matrix[1, 2]  # 0.0

如果只想計算部分文檔對？

使用 cosine_similarity 的 子集計算：

# 只計算文檔1和文檔2的相似度（不計算整個矩陣）
subset_sim = cosine_similarity(tfidf_matrix[0:1], tfidf_matrix[1:2])
print(subset_sim[0][0])  # 輸出 0.6461289

總結

矩陣位置	含義	示例值
`[i][i]`	文檔自己與自己的相似度	1.0
`[i][j]`	文檔i與文檔j的相似度	0.0~1.0
`[j][i]`	文檔j與文檔i的相似度（對稱）	同`[i][j]`

1：表示兩個向量方向完全相同（高度相似）
0：表示兩個向量正交（無相關性）
-1：表示兩個向量方向完全相反（高度不相似）

這種矩陣形式便于一次性分析所有文檔之間的關系，常用于 聚類分析、推薦系統 等任務。
什么是TD-IDF?

本文來自互聯網用戶投稿，該文觀點僅代表作者本人，不代表本站立場。本站僅提供信息存儲空間服務，不擁有所有權，不承擔相關法律責任。
如若轉載，請注明出處：http://www.pswp.cn/diannao/82921.shtml
繁體地址，請注明出處：http://hk.pswp.cn/diannao/82921.shtml
英文地址，請注明出處：http://en.pswp.cn/diannao/82921.shtml

如若內容造成侵權/違法違規/事實不符，請聯系多彩編程網進行投訴反饋email:809451989@qq.com，一經查實，立即刪除！