LDA算法進行相似性分析

import gensim
from gensim import corpora
from gensim.models import LdaModel
from gensim.matutils import cossim
import nltk
from nltk.corpus import stopwords
from nltk.tokenize import word_tokenize
import string# 如果您尚未下載nltk的停用詞列表，請取消下面的注釋并運行一次
# nltk.download('punkt')
# nltk.download('stopwords')# 數據預處理函數
def preprocess(text):stop_words = set(stopwords.words('english'))tokens = word_tokenize(text.lower())tokens = [word for word in tokens if word.isalpha()]  # 僅保留字母tokens = [word for word in tokens if word not in stop_words]  # 去除停用詞return tokens# 示例文檔
documents = ["Text processing using LDA is interesting.","Another document example for LDA.","Text mining and natural language processing.","LDA helps in topic modeling and finding patterns.","This document is for testing LDA similarity."
]# 數據預處理
texts = [preprocess(doc) for doc in documents]# 創建詞典
dictionary = corpora.Dictionary(texts)# 轉換為詞袋模型
corpus = [dictionary.doc2bow(text) for text in texts]# 訓練LDA模型
num_topics = 2
lda_model = LdaModel(corpus, num_topics=num_topics, id2word=dictionary, passes=15)# 對新文檔進行主題分布提取
new_doc = "New text for testing similarity with LDA."
new_doc_preprocessed = preprocess(new_doc)
new_doc_bow = dictionary.doc2bow(new_doc_preprocessed)
new_doc_topics = lda_model.get_document_topics(new_doc_bow)# 獲取原始文檔的主題分布
doc_topics = [lda_model.get_document_topics(doc_bow) for doc_bow in corpus]# 計算新文檔與每個原始文檔的相似性
similarities = []
for i, doc_topic in enumerate(doc_topics):similarity = cossim(new_doc_topics, doc_topic)similarities.append((i, similarity))# 輸出相似性結果
print("Similarity between new document and each original document:")
for i, similarity in similarities:print(f"Document {i}: Similarity = {similarity}")

import gensim
from gensim import corpora
from gensim.models import LdaModel
from gensim.matutils import cossim
import nltk
from nltk.corpus import stopwords
from nltk.tokenize import word_tokenize
import string

# 如果您尚未下載nltk的停用詞列表，請取消下面的注釋并運行一次
# nltk.download('punkt')
# nltk.download('stopwords')

# 數據預處理函數
def preprocess(text):
? ? stop_words = set(stopwords.words('english'))
? ? tokens = word_tokenize(text.lower())
? ? tokens = [word for word in tokens if word.isalpha()] ?# 僅保留字母
? ? tokens = [word for word in tokens if word not in stop_words] ?# 去除停用詞
? ? return tokens

# 示例文檔
documents = [
? ? "Text processing using LDA is interesting.",
? ? "Another document example for LDA.",
? ? "Text mining and natural language processing.",
? ? "LDA helps in topic modeling and finding patterns.",
? ? "This document is for testing LDA similarity."
]

# 數據預處理
texts = [preprocess(doc) for doc in documents]

# 創建詞典
dictionary = corpora.Dictionary(texts)

# 轉換為詞袋模型
corpus = [dictionary.doc2bow(text) for text in texts]

# 訓練LDA模型
num_topics = 2
lda_model = LdaModel(corpus, num_topics=num_topics, id2word=dictionary, passes=15)

# 對新文檔進行主題分布提取
new_doc = "New text for testing similarity with LDA."
new_doc_preprocessed = preprocess(new_doc)
new_doc_bow = dictionary.doc2bow(new_doc_preprocessed)
new_doc_topics = lda_model.get_document_topics(new_doc_bow)

# 獲取原始文檔的主題分布
doc_topics = [lda_model.get_document_topics(doc_bow) for doc_bow in corpus]

# 計算新文檔與每個原始文檔的相似性
similarities = []
for i, doc_topic in enumerate(doc_topics):
? ? similarity = cossim(new_doc_topics, doc_topic)
? ? similarities.append((i, similarity))

# 輸出相似性結果
print("Similarity between new document and each original document:")
for i, similarity in similarities:
? ? print(f"Document {i}: Similarity = {similarity}")
?

本文來自互聯網用戶投稿，該文觀點僅代表作者本人，不代表本站立場。本站僅提供信息存儲空間服務，不擁有所有權，不承擔相關法律責任。
如若轉載，請注明出處：http://www.pswp.cn/web/42445.shtml
繁體地址，請注明出處：http://hk.pswp.cn/web/42445.shtml
英文地址，請注明出處：http://en.pswp.cn/web/42445.shtml

如若內容造成侵權/違法違規/事實不符，請聯系多彩編程網進行投訴反饋email:809451989@qq.com，一經查實，立即刪除！