技術特征:
1.一種基于粒子群位置更新思想灰狼優化算法的k-means文本分類方法,其特征在于:包括以下步驟:
s1:對文本數據進行預處理,得到預處理后文本數據;
s2:采用余弦角度為相似性度量,分別計算預處理后文本數據向量中的每一個數據對象到每一個初始灰狼個體的初始聚類中心點間的距離,并按相似度最接近的原則,分別將預處理文本數據中的數據對象分配到對應的k個類簇中,直到所有的數據對象分配完畢,形成k個類簇;再計算下一個灰狼個體的數據分配結果,直到灰狼種群中所有的灰狼個體都計算完畢,得到n種初步文本聚類結果;
s3:分別計算每一個灰狼個體到數據中心點間的距離之和,分別得到了n個灰狼個體的適應度評估函數值;
s4:對n個適應度評估函數值進行按序排列,選出適應度評估函數值最小的前三只狼作為α狼,β狼,δ狼;并根據α狼,β狼,δ狼三只狼的位置,計算灰狼種群中其他灰狼個體到這三只狼的距離,并計算其余灰狼個體位置更新的中間變量的值;s5:將帶有粒子群位置更新思想的所有灰狼個體進行位置更新;
s6:判斷粒子群位置更新思想改進的灰狼優化算法的k-means聚類算法是否達到最大迭代次數,如果否,則執行步驟2;如果是,輸出α狼的適應度值及其位置xα,根據xα聚類中心得到的最終文本數據分配結果。
2.根據權利要求1所述的一種基于粒子群位置更新思想灰狼優化算法的k-means文本分類方法,其特征還在于:所述文本數據進行預處理步驟如下:
s1:采用分詞軟件劃分反映完整文本句意的最小單位的詞組;
s2:篩選無意義詞組;
s3:采用向量空間模型進行數學建模,對分詞后的本文數據采用詞頻統計進行分詞權重計算,提取文本數據中的關鍵詞;
s4:使用word2vec模型進行詞的向量化,用向量化之后的文本數據向量作為聚類的數據輸入。
3.根據權利要求1所述的一種基于粒子群位置更新思想灰狼優化算法的k-means文本分類方法,其特征還在于:所述余弦角度作為相似性度量公式如下:
其中xi(i=1,2,3...,n)表述數據對象向量,xj(j=1,2,3,...,n)表示中心點向量。
4.根據權利要求1所述的一種基于粒子群位置更新思想灰狼優化算法的k-means文本分類方法,其特征還在于:適應度評估函數值公式如公式如下:
其中,k代表聚類個數。
5.根據權利要求1所述的一種基于粒子群位置更新思想灰狼優化算法的k-means文本分類方法,其特征還在于:所述灰狼個體進行位置更新根據如下公式進行:
其中灰狼位置更新速度通過如下公式確定:
其中,w稱為慣性因子,r7,r8,r9是屬于[0,1]間的隨機數,分別表示控制種群中其余狼與三只頭狼之間距離的參數,范圍為在[0,2]之間;分別表示位置更新后的灰狼個體位置;代表當前灰狼的位置。