《用
Python
玩轉數據》數據分析項目
一、程序功能
基于
MovieLens
100k
數據集中男性女性對電影的評分來判斷男性還是女性電影
評分的差異性更大。
二、數據來源
數據集下載:
http://files.grouplens.org/datasets/movielens/ml-100k.zip
數據含義:
u.data
表示
100k
條評分記錄,每一列的數值含義是:
user?id?|?item?id?|?rating?|?timestamp
u.user
表示用戶的信息,每一列的數值含義是:
user?id?|?age?|?gender?|?occupation?|?zip?code
u.item
文件表示電影的相關信息,每一列的數值含義是:
movie/item?id?|?movie?title?|?release?date?|?video?release?date?|IMDb?URL?|?unknown?|
Action?|?Adventure?|?Animation?|?Children's?|?Comedy?|?Crime?|?Documentary?|?Drama?|
Fantasy?|Film-Noir?|?Horror?|?Musical
|?Mystery?|?Romance?|?Sci-Fi?|Thriller?|?War?|
Western?|
#?API
文檔請參考
http://pandas.pydata.org/pandas-docs/stable/
三、分析和參考代碼
基于本數據集可以進行很多分析,
例如簡單的可基于男生和女生評分均值統計男
女各自最喜愛的
10
部電影,結果如下:
>>>?mean_ratings[:10]
gender
F
M