豆瓣Top250網址 將之前爬取到的豆瓣電影進行簡單的可視化: 數據列表保存為CSV格式,如圖
導入數據 做好準備
#!-*- coding:utf-8 -*-
import pandas as pd
import numpy as np
import matplotlib.pylab as plt
import re
from numpy import rank
from builtins import map
from datashape.coretypes import Map
#http://www.jianshu.com/p/0a76c94e9db7 參考了簡書上的餅狀圖教程
#切換工作目錄,IPython運行%pylab
Movie=pd.read_csv('./doubanmovietop.csv') #數據讀取
檢查數據頭
Movie.head()
Unnamed: 0 | title | info | rating_num | comment_num | daoyan | date | guojia | juqing | |
---|---|---|---|---|---|---|---|---|---|
0 | 1 | 肖申克的救贖 | 希望讓人自由。 | 9.7 | 1682392 | 導演: 弗蘭克·德拉邦特 Frank Darabont主演: 蒂姆·羅賓斯 Tim Robb... | 1994 | 美國 | 犯罪 劇情 |
1 | 2 | 霸王別姬 | 風華絕代。 | 9.6 | 1244650 | 導演: 陳凱歌 Kaige Chen主演: 張國榮 Leslie Cheung / 張豐毅 ... | 1993 | 中國大陸 中國香港 | 劇情 愛情 同性 |
2 | 3 | 阿甘正傳 | 一部美國近現代史。 | 9.5 | 1301770 | 導演: 羅伯特·澤米吉斯 Robert Zemeckis主演: 湯姆·漢克斯 Tom Han... | 1994 | 美國 | 劇情 愛情 |
3 | 4 | 這個殺手不太冷 | 怪蜀黍和小蘿莉不得不說的故事。 | 9.4 | 1495321 | 導演: 呂克·貝松 Luc Besson主演: 讓·雷諾 Jean Reno / 娜塔莉·波... | 1994 | 法國 | 劇情 動作 犯罪 |
4 | 5 | 美麗人生 | 最美的謊言。 | 9.5 | 760464 | 導演: 羅伯托·貝尼尼 Roberto Benigni主演: 羅伯托·貝尼尼 Roberto... | 1997 | 意大利 | 劇情 喜劇 愛情 戰爭 |
豆瓣電影Top250
評分的分布餅圖代碼:
#Rating pie
Rating=Movie['rating_num']
bins=[8,8.5,9,9.5,10] #分區(0,8],(8,8.5]....
rat_cut=pd.cut(Rating,bins=bins)
rat_class=rat_cut.value_counts() #統計區間個數
rat_pct=rat_class/rat_class.sum()*100 #計算百分比
rat_arr_pct=np.array(rat_pct)#將series格式轉成array,為了避免pie中出現name
f1=plt.figure(figsize=(9,9))
plt.title('DoubanMovieTop250\nRatingDistributin(0~10)')
plt.pie(rat_arr_pct,labels=rat_pct.index,colors=['r','g','b','c'],autopct='%.2f%%',startangle=75,explode=[0.05]*4) #autopct屬性顯示百分比的值
plt.savefig('MovieTop250.RatingDistributin(0~10).png')
f1.show()
#explode:將某部分爆炸出來, 使用括號,將第一塊分割出來,數值的大小是分割出來的與其他兩塊的間隙
#labeldistance,文本的位置離遠點有多遠,1.1指1.1倍半徑的位置
#autopct,圓里面的文本格式,%3.1f%%表示小數有三位,整數有一位的浮點數
#shadow,餅是否有陰影
#startangle,起始角度,0,表示從0開始逆時針轉,為第一塊。一般選擇從90度開始比較好看
#pctdistance,百分比的text離圓心的距離
#patches, l_texts, p_texts,為了得到餅圖的返回值,p_texts餅圖內部文本的,l_texts餅圖外label的文本
電影出品年的分布餅圖:
#year pie
year=Movie['date']
for i in year.index:if len(year[i])>4:year.drop(i,inplace=True) # year.drop(i,inplace=True) 去除多個年代的特例,inplace重要,修改改變原值
year=year.astype(int)
bins=np.linspace(min(year)-1,max(year)+1,10).astype(int) #產生區間,bins一般為(,]的,所以+1
year_cut=pd.cut(year,bins=bins)
year_class=year_cut.value_counts()
year_pct=year_class/year_class.sum()*100
year_arr_pct=np.array(year_pct)
color=['b', 'g', 'r', 'c', 'm', 'y', (0.2,0.5,0.7), (0.6,0.5,0.7),(0.2,0.7,0.1)] #RGB 0-1之間的tuple
f2=plt.figure(figsize=(9,9))
patches,out_text,in_text=plt.pie(year_arr_pct,labels=year_pct.index,colors=color,autopct='%.2f%%',explode=[0.05]*9,startangle=30)
plt.title('MovieTop250\nYears Distribution')
f2.show()
# plt.savefig('MovieTop250_YearsDistribution.png')
豆瓣電影Top250,電影排名&評價人數&電影評分的散點圖:
#評價人數
rank=np.array(Movie.index,dtype=int)+1 #index start from 0
Movie['0']=rank
f3=plt.figure(3,figsize=(12,10))
plt.scatter(x=Movie['0'],y=Movie['comment_num'],c=Movie['rating_num'],s=80)
plt.title('Douban Movie\nRank and Rating People by Rating',fontsize=20)
plt.xlabel('Rank',fontsize=15)
plt.ylabel('Rating People',fontsize=15)
plt.axis([-5,255,0,750000]) #x軸坐標范圍
plt.colorbar() #顯示colorbar
plt.savefig('DoubanMovie_Rank_and_RatingPeople_by_Rating.png')
plt.show()
按電影國家分類柱狀圖
:
#!-*- coding:utf-8 -*-
import pandas as pd
import numpy as np
import matplotlib.pylab as plt
from matplotlib.font_manager import FontProperties #fontproperties的模塊,pyde自動添加的,好評Movie=pd.read_csv('./doubanmovietop.csv',encoding='utf-8')
country_iter=(set(x.split(' ')) for x in Movie['guojia']) #generator生成器,分解字符串
countries=sorted(set.union(*country_iter)) #Return the union of sets as a new set.
#*country_iter:This works for any iterable of iterables.
df=pd.DataFrame(np.zeros((len(Movie),len(countries))),columns=countries)#創建一個0DataFrame,np.zeros()內為要tuple
for i,gen in enumerate(Movie['guojia']): df.ix[i,gen.split(' ')]=1 #第i條數據的country置為1
num_of_country=df.sum()
# print(num_of_country)
num_of_country[4]=num_of_country[1]+num_of_country[2]+num_of_country[4] #(1964中國大陸中國大陸重映)和中國大陸合并
# num_of_country.pop('中國')
# print(num_of_country)
num_of_country.sort_values(inplace=True,ascending=False)
f1=plt.figure()
for i,gen in enumerate(num_of_country[:10]):plt.bar(i,gen) #i為bar的起始橫坐標,gen為縱坐標,寬度默認
names=list(num_of_country.index)
plt.xticks(np.arange(10),names,fontproperties='SimHei',rotation =60) #在圖中顯示中文字符要加上fontproperties='SimHei'
plt.ylabel('Movie Number')
plt.title('Douban Movie\nMovie Distribution by Countries')
# plt.savefig('Movie_Distribution_by_Countries.png')
f1.show()#因為有些影片為多國合作的,也算各自國家的吧。
#過濾了很多只有一兩部的國家,果然還是美帝有金坷垃,畝產一萬八
影片類型分布柱狀圖:
genre_iter=(set(x.split(' ')) for x in Movie['juqing'])
genre=sorted(set.union(*genre_iter))
frame=pd.DataFrame(np.zeros((len(Movie),len(genre))),columns=genre)
for i,gen in enumerate(Movie['juqing']):frame.ix[i,gen.split(' ')]=1
genre_sum=frame.sum()
genre_sum.sort_values(inplace=True,ascending=False)
f2=plt.figure(2)
'''for i,gen in enumerate(genre_sum[:8]):plt.bar(i,gen)
names=list(genre_sum.index)
plt.xticks(np.arange(8)+0.4,names,fontproperties='SimHei')
plt.show()'''
#改進的方法
p2=plt.bar(np.arange(8),genre_sum.values[:8],align='center') #p2包含8個元素,每個對應一個bar
names=list(genre_sum.index)
plt.xticks(np.arange(8),names,fontproperties='SimHei')
plt.legend((p2[0],),('MovieNumber',)) #只有一個元素的tuple應寫成(ele,)
plt.ylabel('Movie Number')
plt.title('Douban Movie\nDistribution by Genre')
#plt.savefig('Movie_Distribution_by_Genre.png')
plt.show()
如需數據 請關注公眾號 后臺回復 :豆瓣電影
即可獲取~