? ? ? ?社交網絡可以用來描述現實社會中的實際網絡,它包括人與人之間的社會關系,物種之間的捕食關系,科學研究中的合作關系等。大量研究已經表明在真實世界中各種不同社交網絡具有許多共同的結構特征,例如小世界性質、無標度性、社團結構等。
? ? ? ?目前,社團發現算法已比較成熟,具體的算法有:GN算法、譜平算法、Kernighan-Lin算法等。
? ? ? ?社團劃分方法也有很多。
? ? ? ?以下是《基于鏈路預測的微博用戶關系分析》的一些學習筆記:
? ? ? ?微博用戶之間形成了復雜的社交網絡。在微博用戶之間有各種影響因素,鏈路預測是微博用戶關系分析的一種模型,該種方法引入了屬性特征,構造了隨機森林的鏈路預測模型,并將模型應用于新浪微博用戶數據集,進行微博用戶關系的訓練預測。通過比較引入微博屬性特征前后的預測性能以及特征的重要性分布,分析了各類特征對微博用戶關系形成的影響。
? ? ??網絡中的鏈路預測是指如何通過已知的網絡結構等信息,預測網絡中尚未產生連接的兩個節點之間產生連接的可能性。網絡中的頂點代表用戶,邊代表用戶關系,鏈路預測問題正是對用戶未來關系的分析。目前,社會網絡鏈路預測模型主要發展為三大類:
? ? ?1)基于有監督學習的分類模型,如決策樹、樸素貝葉斯、神經網絡、SVM、KNN及集成方法中的bagging、boossting和隨機森林等。
? ? ?2)概率模型,該模型主要是建立一組可調參數的模型,然后使用優化策略尋找最優的參數值,使模型能夠達到最優,這時兩個未連邊的節點對的概率就是它們產生連邊的條件概率。概率模型的構建方法有貝葉斯網絡模型和馬爾科夫網絡關系模型等。
? ? ?3)線性代數方法,該方法是通過降階相似矩陣來計算網絡中節點之間的相似性。Kuegis等人利用圖的鄰接矩陣,并定義一個函數F使得兩個時刻的鄰接矩陣的差異性最小,這樣就將鏈路預測問題轉換成線性代數優化問題,之后再通過矩陣變換和降維的方法將問題轉換為一維的最小二乘曲線擬合問題。
? ? 該文章從網絡拓撲結構特征(度特征、共同朋友特征、朋友總數特征、中介朋友特征、優先鏈接特征、Adamic-Adar特征、朋友評價特征、反向關系特征、鄰居子圖特征)、微博屬性特征(用戶的關注數、粉絲數、微博消息數、所在地)以及朋評價、鄰居子圖等特征分析了用戶關系的影響構造出基于隨機森林(Random Forest)的鏈路預測模型,最后分析了預測模型中各特征的Gini指標,獲得了特征的重要性分布,從而驗證了網絡拓撲結構特征和微博屬性特征對用戶關系的影響。
? ?數據集的獲取是通過中國爬盟的新浪微博用戶關系數據集作為微博研究數據,數據使用之前要對數據進行清洗。
? ?——————————————————————————————————————————————————————
? 歡迎各位交流探討,不吝賜教。轉載請注明出處。