原文鏈接:https://tecdat.cn/?p=41149
分析師:Zhenzhen Liu,Shuai Fung
作為數據科學家,我們始終關注如何從非結構化數據中提取高價值信息。本專題合集聚焦企業年報的文本分析技術,通過Python與R語言實戰案例,系統展示如何利用自然語言處理(NLP)技術量化企業年報的情感傾向。以10家上市銀行2010-2022年的130份年報為研究對象,我們構建了包含停用詞過濾、情感詞典匹配、LSTM神經網絡分類等完整技術鏈路,最終生成可量化的樂觀指標矩陣(點擊文末“閱讀原文”獲取完整代碼、數據、文檔)。
視頻
本專題合集的核心價值在于突破傳統財務分析的局限性。當企業未披露數字化轉型等非結構化指標時,文本挖掘技術可通過詞頻統計、語義分析等方法揭示深層信息。例如,通過分析"數字""智能"等關鍵詞的出現頻次與情感關聯度,能夠客觀評估企業的技術投入態度。這種跨學科研究不僅為投資決策提供新維度,更為監管機構識別市場情緒波動提供技術支持。
專題合集包含4大技術模塊:中文分詞與情感計算、LSTM神經網絡在社交媒體情感分析中的應用、R語言古典文本挖掘實戰、汽車口碑數據采集詞云可視化。特別值得關注的是LSTM模型在微博評論數據集上的學習實踐。而《紅樓夢》文本挖掘案例則展示了如何通過詞云可視化與t檢驗分析,驗證不同章節的作者風格差異。
本專題合集已分享在交流社群,閱讀原文進群和500+行業人士共同交流和成長。數據科學的魅力在于連接技術與商業場景,我們期待與您共同探索文本數據中的商業密碼。
企業年報語調分析:以上市銀行為例
在當今的商業世界中,企業年報是了解企業經營狀況和未來發展前景的重要窗口。然而,年報中的文字信息往往蘊含著豐富的情感和態度,這些信息對于投資者、分析師和監管者來說都具有重要的參考價值。傳統的財務指標分析往往難以捕捉到這些非量化的信息,因此,文本分析技術應運而生。
故事的起源
在金融市場中,上市銀行的年報是投資者關注的焦點之一。從2010年到2022年,這13年的時間里,金融市場風云變幻,上市銀行面臨著各種挑戰和機遇。我們想要了解這些銀行在不同年份的年報中所傳達出的語氣和態度,以此來洞察銀行的經營信心和市場預期。但是,銀行年報往往篇幅巨大,人工分析不僅耗時耗力,而且容易出現主觀偏差。于是,我們決定借助Python編程語言,利用文本分析技術來完成這項任務。
準備工作
要進行年報語氣評分,首先得有年報數據。我們把目標鎖定在了巨潮資訊網,這是一個權威的上市公司信息披露平臺。我們要模擬點擊的方式,下載10家上市銀行2010 - 2022年的年報,然后將這些年報轉換為txt格式,這樣就能方便后續的文本處理了。經過一番操作,我們一共得到了130個文本文件。
接下來,我們需要設置停用詞表和情感詞表。停用詞是指在文本中頻繁出現但沒有實際意義的詞語,比如“的”“是”“在”等,去除這些停用詞可以提高文本分析的準確性。情感詞表則分為積極情感詞表和消極情感詞表,用于判斷文本中的積極和消極情感。
下面是讀取詞表文件的代碼:
def?read\_file(file\_path):#?以只讀模式打開文件,使用utf-8編碼with?open(file_path,?'r',?encoding='utf-8')?as?file:#?讀取文件的所有行content?=?file.readlines()#?去除每行末尾的換行符content?=?\[line.strip()?for?line?in?content\]#?替換特殊字符content?=?\[line.replace('"',?'')?for?line?in?content\]return?content
#?讀取停用詞文件
stopwords?=?read_file(r'E:\\python\\14weekpython\\stopwords.txt')
print(stopwords)
#?讀取積極情感詞典文件
posdict?=?read_file(r'E:\\python\\14weekpython\\posdict.txt')
#?讀取消極情感詞典文件
negdict?=?read_file(r'E:\\python\\14weekpython\\negdict.txt')
分詞與情感分析
有了年報數據和詞表,接下來就是對年報進行分詞和情感分析了。我們使用jieba庫對文本進行分詞,然后過濾掉停用詞。
import?jieba
import?re
#?對文本進行分詞并過濾停用詞
def?segment(text):seg_list?=?jieba.cut(text)filtered\_words?=?\[word?for?word?in?seg\_list?if?word?not?in?stopwords\]return?filtered_words
分詞完成后,我們要統計年報中積極和消極語調的數量。具體來說,我們會計算積極語調、消極語調、積極詞匯數量、消極詞匯數量、段落總詞數、停用詞數量和總句數量。
#?計算積極語調、消極語調、積極詞匯數量、消極詞匯數量、段落總詞數、停用詞數量、總句數量
def?analyze_text(text):pos_count?=?0neg_count?=?0pos\_word\_count?=?0neg\_word\_count?=?0word_count?=?0stopword_count?=?0sentence_count?=?0#?將文本按段落分割paragraphs?=?re.split('\\n|\\r',?text)for?para?in?paragraphs:if?not?para.strip():continue#?將段落分割成句子sentences?=?re.split('\[-!?。\]',?para)for?sentence?in?sentences:if?not?sentence.strip():continue#?將句子分詞并過濾停用詞words?=?segment(sentence)word_count?+=?len(words)stopword_count?+=?sum(\[1?for?word?in?words?if?word?in?stopwords\])pos\_word\_count?+=?len(\[word?for?word?in?words?if?word?in?posdict\])neg\_word\_count?+=?len(\[word?for?word?in?words?if?word?in?negdict\])#?判斷句子的情感傾向if?pos\_word\_count?>?neg\_word\_count:pos_count?+=?1elif?pos\_word\_count?<?neg\_word\_count:neg_count?+=?1sentence_count?+=?1return?pos\_count,?neg\_count,?pos\_word\_count,?neg\_word\_count,?word\_count,?stopword\_count,?sentence_count
計算樂觀指標
為了量化年報的語氣,我們引入了樂觀指標。樂觀指標的計算公式為:樂觀指標 = 積極語調數量 / (積極語調數量 + 消極語調數量)。
#?計算樂觀指標
def?calculate\_optimism(pos\_count,?neg\_count,?sentence\_count):if?pos\_count?+?neg\_count?==?0:return?0optimism?=?pos\_count?/?(pos\_count?+?neg_count)return?optimism
處理年報文件
最后,我們要讀取所有的年報文件,并對每個文件進行分析,將計算得到的樂觀指標等信息輸出到excel表中。
import?os
#?讀取年報文件并分析文本
def?analyze\_report(file\_path):with?open(file_path,?'r',?encoding='utf-8')?as?f:text?=?f.read()pos\_count,?neg\_count,?pos\_word\_count,?neg\_word\_count,?word\_count,?stopword\_count,?sentence\_count?=?analyze\_text(text)optimism?=?calculate\_optimism(pos\_count,?neg\_count,?sentence\_count)return?{'pos\_count':?pos\_count,?'neg\_count':?neg\_count,?'pos\_word\_count':?pos\_word\_count,'neg\_word\_count':?neg\_word\_count,?'word\_count':?word\_count,?'stopword\_count':?stopword\_count,'sentence\_count':?sentence\_count,?'optimism':?optimism}
#?讀取目錄下的所有年報文件并分析
def?analyze\_reports(dir\_path):company_reports?=?{}for?root,?dirs,?files?in?os.walk(dir_path):for?file?in?files:if?file.endswith('.txt'):company_name?=?file.split(':')\[0\]file_path?=?os.path.join(root,?file)report\_data?=?analyze\_report(file_path)if?company\_name?in?company\_reports:company\_reports\[company\_name\].append(report_data)else:company\_reports\[company\_name\]?=?\[report_data\]return?company_reports
#?設置年報文件目錄
dir_path?=?"年報"
company\_reports?=?analyze\_reports(dir_path)
結果與啟示
通過對這10家上市銀行2010 - 2022年的年報進行語氣評分,我們可以得到每個銀行在不同年份的樂觀指標。這些指標可以反映出銀行在不同時期的經營信心和市場預期。例如,如果某家銀行在某一年的樂觀指標較高,說明該銀行在年報中傳達出了積極的態度,可能意味著該銀行在這一年的經營狀況較好,對未來的發展充滿信心。相反,如果樂觀指標較低,則可能表示銀行面臨著一些挑戰和壓力。
這種文本分析方法不僅適用于上市銀行的年報分析,對于其他難以量化的指標或者難以針對每個企業衡量的指標,也具有很好的應用價值。比如當前較熱的數字化轉型,企業可能沒有專門披露這一指標,我們就可以通過對其年報進行分析,了解企業在數字化轉型方面的進展和態度。
總之,文本分析技術為我們打開了一扇了解企業的新窗口,讓我們能夠從文字信息中挖掘出更多有價值的信息。隨著技術的不斷發展,相信文本分析在金融領域和企業研究中的應用會越來越廣泛。
點擊標題查閱往期內容
數據分享|R語言聚類、文本挖掘分析虛假電商評論數據:K-MEANS(K-均值)、層次聚類、詞云可視化
左右滑動查看更多
01
02
03
04
LSTM神經網絡模型在微博中文文本評論情感分析|附數據代碼
分析師:Shuai Fung
本文將通過視頻講解,展示如何用python的LSTM模型對中文文本評論情感分析,并結合一個TensorFlow的長短期記憶神經網絡(LSTM)、指數移動平均法預測股票市場和可視化實例的代碼數據,為讀者提供一套完整的LSTM模型分類預測的實踐數據分析流程。
基于LSTM模型的中文文本評論情感分析
研究背景
在自然語言處理(NLP)領域,情感分析一直是研究的熱點之一。盡管國外研究人員在早期就針對英文文本開展了情感分析的研究,但由于中英文在語法結構、詞匯含義以及表達方式上存在顯著差異,中文文本情感分析面臨著獨特的挑戰。尤其是隨著微博等社交媒體的興起,網絡文本呈現出短小精悍、數據稀疏、上下文信息有限等特點,使得傳統的基于情感詞典的分析方法難以直接應用。
因此,中文文本情感分析的研究不僅具有理論價值,更具有重要的現實意義。通過對海量互聯網評論文本進行情感分析,不僅可以實現異常或突發事件的檢測和監控,還能助力網絡輿情監控系統的完善,為企業的市場營銷策略提供有力支持。此外,情感分析在心理學、語言學、教育學、社會學、金融預測等多個領域也具有廣泛的應用前景。
研究內容
本研究主要基于長短期記憶網絡(Long Short-Term Memory, LSTM)實現中文文本情感分析。具體研究內容包括:
數據集的收集、整理與分析,以及對數據集進行詞向量等預處理操作,以適應LSTM模型的輸入要求。
構建一個情感分析模型,利用PyTorch框架搭建LSTM網絡,并將此網絡模型應用于中文文本情感分析任務中。通過訓練模型,使其能夠準確識別文本的情感傾向,并輸出混淆矩陣等評價指標。
研究流程
本研究遵循以下流程進行:
數據獲取:使用微博情感分析數據集,該數據集包含積極情感和消極情感兩種標簽,共計約12萬條數據。
數據預處理:利用公開的Vocab和騰訊發布的詞向量預訓練模型,對文本數據進行詞向量預處理,以便后續模型訓練。
搭建模型:使用PyTorch框架搭建LSTM網絡模型,設置合適的網絡結構和參數。
模型訓練:通過調整batch_size、epoch等超參數,對模型進行訓練,并輸出訓練日志以監控訓練過程。
模型評估:在測試集上評估模型的性能,輸出混淆矩陣,并采用精準率、召回率、F1值等指標對模型進行綜合評價。
算法原理
LSTM是一種特殊的循環神經網絡(RNN),它通過引入門控機制來解決RNN在處理長序列時存在的梯度消失和梯度爆炸問題。LSTM包含三個門:遺忘門、輸入門和輸出門,以及一個記憶單元。在每個時間步,LSTM都會根據當前輸入和上一時刻的輸出更新記憶單元和門控狀態,從而實現對長序列信息的有效處理。
在情感分析任務中,LSTM網絡通過學習文本序列中的依賴關系,能夠捕捉文本中的情感信息,并輸出相應的情感傾向。通過訓練LSTM網絡模型,我們可以實現對中文文本情感分析任務的有效處理。
模型搭建
LSTM模型通過引入門控機制,能夠處理長序列數據中的依賴關系,適用于情感分析任務。在模型搭建過程中,我們設置了合適的網絡結構和參數,包括隱藏層大小、學習率、批次大小(batch size)等超參數。
原始數據
超參數
預處理一一分割文本、劃分訓練集
首先,對原始數據集進行文本分割,將長文本切分為適合模型輸入的短文本序列。接著,將數據集劃分為訓練集、驗證集和測試集,確保模型在訓練過程中能夠有效利用數據,并通過驗證集進行模型調優,最終在測試集上評估模型的性能。
預處理一一張量轉化
將預處理后的文本數據轉化為張量(tensor)格式,以適應PyTorch等深度學習框架的輸入要求。通過詞嵌入(word embedding)技術,將文本中的每個詞映射為一個固定維度的向量,從而捕獲文本的語義信息。
訓練
在模型訓練過程中,我們使用訓練集數據對模型進行迭代訓練,通過反向傳播算法和梯度下降優化器更新模型的參數。同時,我們記錄了訓練過程中的損失函數值和準確率等指標,以便對模型的訓練過程進行監控和調優。?
模型評估
在模型訓練完成后,我們使用測試集數據對模型進行評估。評估指標包括精準率(Precision)、召回率(Recall)和F1值等。通過輸出混淆矩陣(Confusion Matrix),我們可以更直觀地了解模型在不同情感類別上的表現。
此外,我們還通過可視化工具展示了模型在訓練過程中的損失函數值和準確率變化曲線,以便對模型的訓練效果進行更深入的分析。?
模型局限
盡管基于LSTM的模型在中文文本情感分析任務中取得了不錯的效果,但仍存在一些局限性:
長期依賴處理:LSTM模型雖然能夠處理長期依賴關系,但在某些情況下可能無法完全捕捉到較長距離之間的依賴關系,導致模型在處理一些復雜的情感語義時出現困難。
數據不平衡問題:在情感分析任務中,積極和消極情感的數據往往不平衡,這可能導致模型在學習時偏向于出現更多的樣本數量較多的情感類別。為了解決這個問題,可以采用數據增強、重采樣等技術來平衡數據集。
語義理解挑戰:情感分析需要對文本的語義進行準確的理解,而LSTM模型可能無法完全捕捉到復雜的語義關系。為了提高模型的語義理解能力,可以引入注意力機制(Attention Mechanism)等技術來增強模型對關鍵信息的關注。
知識表示限制:LSTM模型通常使用詞嵌入來表示文本的語義信息,但詞嵌入可能無法準確地捕捉到一些特定領域或文化背景中的情感表達。為了解決這個問題,可以引入領域知識或文化背景信息來豐富詞嵌入的表示能力。
針對以上局限性,未來的研究可以探索更先進的模型架構和算法,以提高中文文本情感分析的準確性和效率。
R語言《紅樓夢》文本挖掘:詞頻統計、詞云可視化及前后對比分析|附數據代碼
作為中國古典文學的瑰寶,《紅樓夢》具有極高的文學價值和豐富的主題內涵。近年來,隨著大數據和文本挖掘技術的發展,對《紅樓夢》等古典文學作品的深度分析成為可能。本研究采用R語言作為分析工具,對《紅樓夢》全文進行文本挖掘,通過詞頻統計、詞云可視化以及前后對比分析,以期深入探索這部經典小說的主題演變和人物塑造。
讀入數據
將需要分析的文本放入記事本中,保存到相應路徑,并在R中打開。這兒我導入的是《紅樓夢》的文本。
先導入rJava和Rwordseg兩個包
library(Rwordseg)
分詞+統計詞頻
words=unistlapplyX=lecture,?UN=sgmntCN))
#unlist將list類型的數據,轉化為vector??
#lapply()返回一個長度與X一致的列表,每個元素為FUN計算出的結果,且分別對應到X中的每個元素。
table統計數據的頻數
降序排序
v=rev(sort(v))
過濾掉1個字的結果和詞頻小于100的結果
d1=subset(d,?nchr(ascharctr(d$詞匯))>1?&?d$詞頻.Freq>=100)
畫出標簽云
wordcloud(d1$詞
性格分析:寶玉
xinggefenxi("寶玉")
從關鍵詞“丫頭”“出去”“姐姐”這些來看,賈寶玉是一個又奇又俗的人物。自幼深受祖母賈母疼愛,住賈母院。因此嬌生慣養,構成他性格的主要特征是叛逆。他行為“偏僻而乖張”,是封建社會的叛逆者。他鄙視功名利祿,不愿走“學而優則仕”的仕途。他痛恨“八股”,辱罵讀書做官的人是“國賊祿蠹”,懶于與他們接觸拜會。
紅樓夢前八十回與后四十回是否同一個人寫的?
lecture<-read.csv("紅樓夢前80回.txt",?tringAsFactorsALSEheade=FALSE)??words=ulit(lppl
#unlist將list類型的數,轉化為vector??
#lapply()返回一個長度與X一致的列表,每個元素為FUN計算出的結果,且分別對應到X中的每個元素。??
word=lapply()
畫出標簽云
lecture<-read.csv("紅樓夢后40回.txt",?stringsAFacors=FLSE,header=FALSE)
前后紅樓夢詞頻對比
qianword=qiwor\[which(qiaword\[?,1\]?%in%?gongtngword),??\]??houword=uword\[whih(houod\[?,1\]?%in%?gongtonword),??\]
前紅樓夢:
后紅樓夢:
t檢驗
t檢驗是用t分布理論來推論差異發生的概率,從而比較兩個平均數的差異是否顯著。用于比較前后紅樓夢的關鍵詞出現頻率的區別差異。
t.test(qianod\[,3\],huord\[,3\])
從結果來看,t檢驗的p值顯著小于0.05,因此拒絕原假設。有95%的把握可以認為前后的紅樓夢不是一個人所做。
R語言汽車口碑數據采集抓取、文本數據分詞和詞云可視化實現
本文以R語言為工具,幫助客戶對汽車網站的口碑數據進行抓取,并基于文本數據分詞技術進行數據清理和統計。通過詞頻統計和詞云可視化,對口碑中的關鍵詞進行分析,挖掘出消費者對汽車的評價和需求,為汽車制造商和銷售商提供重要的市場參考。
隨著社會經濟的不斷發展,汽車已經成為人們日常生活中不可或缺的交通工具。汽車口碑對于消費者購車決策起著至關重要的作用,同時也是汽車制造商和銷售商了解市場需求、改進產品質量和服務的重要依據。傳統的汽車口碑調查方式往往需要耗費大量的人力物力,而網絡上的汽車口碑數據正逐漸成為研究汽車市場和消費者需求的重要數據來源。然而,如何高效地獲取和分析這些數據變得越來越重要。因此,本文利用R語言的數據抓取和文本數據分詞技術,對汽車網站的口碑數據進行抓取和分析,旨在為汽車行業提供更準確、更快速的市場研究手段。
本文主要實現以下兩個目標:
基于R語言的數據抓取部分。這一部分里面所有的結果都要實現
基于R語言的文本數據分詞
在每一頁評價內容的抓取中 , 依然使用 xpath SApply 函數,再輸入特定的 XML 路徑來抓取網頁上的用戶評價內容
library(RCurl)Also?load?the?other?required?package.??
library("methods")??
xpath?<-?'//div\[@class=\\"co81\\"\]'??url?<-"www.chekb.com/suonata/koubei/"
pagetree?<-?htmlTreeParse(webpage,?error=function(...){},?useInternalNodes?=?TRUE,encoding="UTF-8")??pagetree??value?<-?getNodeSet(pagetree,xpath)??i?<-?length(value)?????????????????????統計滿足條件的值個數,一般情況為1
讀入數據
將需要分析的文本放入記事本中,保存到相應路徑,并在R中打開。
head(lecture)
數據清理
lecture$評價=gsub(pattern="\[1|2|3|4|5|6|7|8|9|0\]","?",lecture$評價); ??
lecture$評價=gsub(pattern="/","?",lecture$評價); ??
lecture$評價=gsub(pattern="!","?",lecture$評價);
......
grepl 函數的 regexpr 函數、regmatches 函數,并結合正則表達式來匹配出“非灰色用戶”的主頁鏈接
grepl(pattern?=?"中國",x?=?lecture$網友)
分詞+統計詞頻
word=lapply(X=words,?FUN=strsplit,?"?")??
v=table(unlist(word))
統計數據的頻數
對詞頻進行排序table函數得到各詞組的詞頻,最后運用 sort 函數讓其按詞頻降序排列,生成文檔詞矩陣
創建數據框
d=data.frame(詞匯=names(v),?詞頻=v)??
d
過濾掉1個字的結果和詞頻小于100的結果
篩選標準大家可以根據自己的需求進行修改
d1=subset(d,?nchar(as.character(d$詞匯))>1?&?d$詞頻.Freq>=2)
詞頻統計結果(節選)如下:
畫出標簽云
(2)設置字體類型和字體顏色
mycolors?<-?brewer.pal(12,"Paired")
(3)畫出標簽云
dcloud(d1$詞匯,d1$詞頻.Freq,random.order=FALSE,random.color=TRUE,colors=mycolors,family="myFont")
關于分析師
在此對Zhenzhen Liu對本文所作的貢獻表示誠摯感謝,她在浙江財經大學完成了金融專業的碩士學位,專注數據采集與金融分析領域。擅長Matlab、Python編程,精通常規金融分析與文本挖掘技術。
Shuai Fung是拓端研究室(TRL)?的研究員。在此對他對本文所作的貢獻表示誠摯感謝,他在香港大學完成了數據科學專業的碩士學位,專注機器學習、數據分析、時間序列預測、深度學習、數理金融。擅長R語言、Python、SQL。
本文中分析的完整數據、代碼、文檔分享到會員群,掃描下面二維碼即可加群!?
資料獲取
在公眾號后臺回復“領資料”,可免費獲取數據分析、機器學習、深度學習等學習資料。
點擊文末“閱讀原文”
獲取完整代碼、數據、文檔。
本文選自《【視頻】文本挖掘專題:Python、R用LSTM情感語義分析實例合集|上市銀行年報、微博評論、紅樓夢、汽車口碑數據采集詞云可視化》。
點擊標題查閱往期內容
Pytorch用BERT對CoLA、新聞組文本數據集自然語言處理NLP:主題分類建模微調可視化分析
【視頻】文本挖掘:主題模型(LDA)及R語言實現分析游記數據
NLP自然語言處理—主題模型LDA案例:挖掘人民網留言板文本數據
Python主題建模LDA模型、t-SNE 降維聚類、詞云可視化文本挖掘新聞組數據集
自然語言處理NLP:主題LDA、情感分析疫情下的新聞文本數據
R語言對NASA元數據進行文本挖掘的主題建模分析
R語言文本挖掘、情感分析和可視化哈利波特小說文本數據
Python、R對小說進行文本挖掘和層次聚類可視化分析案例
用于NLP的Python:使用Keras進行深度學習文本生成
長短期記憶網絡LSTM在時間序列預測和文本分類中的應用
用Rapidminer做文本挖掘的應用:情感分析
R語言文本挖掘tf-idf,主題建模,情感分析,n-gram建模研究
R語言對推特twitter數據進行文本情感分析
Python使用神經網絡進行簡單文本分類
用于NLP的Python:使用Keras的多標簽文本LSTM神經網絡分類
R語言文本挖掘使用tf-idf分析NASA元數據的關鍵字
R語言NLP案例:LDA主題文本挖掘優惠券推薦網站數據
Python使用神經網絡進行簡單文本分類
R語言自然語言處理(NLP):情感分析新聞文本數據
Python、R對小說進行文本挖掘和層次聚類可視化分析案例
R語言對推特twitter數據進行文本情感分析
R語言中的LDA模型:對文本數據進行主題模型topic modeling分析
R語言文本主題模型之潛在語義分析(LDA:Latent Dirichlet Allocation)
R語言對NASA元數據進行文本挖掘的主題建模分析
R語言文本挖掘、情感分析和可視化哈利波特小說文本數據
Python、R對小說進行文本挖掘和層次聚類可視化分析案例
用于NLP的Python:使用Keras進行深度學習文本生成
長短期記憶網絡LSTM在時間序列預測和文本分類中的應用
用Rapidminer做文本挖掘的應用:情感分析
R語言文本挖掘tf-idf,主題建模,情感分析,n-gram建模研究
R語言對推特twitter數據進行文本情感分析
Python使用神經網絡進行簡單文本分類
用于NLP的Python:使用Keras的多標簽文本LSTM神經網絡分類
R語言文本挖掘使用tf-idf分析NASA元數據的關鍵字
R語言NLP案例:LDA主題文本挖掘優惠券推薦網站數據
Python使用神經網絡進行簡單文本分類
R語言自然語言處理(NLP):情感分析新聞文本數據
Python、R對小說進行文本挖掘和層次聚類可視化分析案例
R語言對推特twitter數據進行文本情感分析
R語言中的LDA模型:對文本數據進行主題模型topic modeling分析
R語言文本主題模型之潛在語義分析(LDA:Latent Dirichlet Allocation)