↑關注 + 置頂 ~?有趣的不像個技術號
52568040f9313098ffa367d9d9d21437.jpg (5.73 KB, 下載次數: 0)
2019-12-10 04:43 上傳
3f4d5fe0016d011a7a68af763314befd.jpg (1.06 KB, 下載次數: 0)
2019-12-10 04:43 上傳
“文明互鑒真硬核,
融梗檸檬誰覺得。
霸凌第一九九六,
塊鏈不知太難了。”
12月1日,《咬文嚼字》編輯部以一首“順口溜”發布2019年度十大流行語。“文明互鑒”、“區塊鏈”、“硬核”、“融梗”、“××千萬條,××第一條”、“檸檬精”、“996”、“我太難/南了”、“我不要你覺得,我要我覺得”、“霸凌主義”十條流行語入選。
微博評論下有很多網友紛紛表示,
XXX為什么能上榜?
XXX為什么沒上榜?
這點呢,小五表示理解,畢竟采用不同的統計口徑得出的結論可能不同。
那么,小五干脆也自己定義個統計口徑,重新“定義”一下【2019十大網絡流行語】
此處致敬一下重新定義的鼻祖——羅老師。
獲取數據
通過搜索“網絡流行語”,可以發現已經有網站幫我們做了整理。
223808b7dd600bad228263e287f6b6c7.jpg (47.99 KB, 下載次數: 0)
2019-12-10 04:43 上傳
利用python爬蟲可以獲取該網站的2019年度所有網絡流行語。
def?main():
data?=?[]
n?=?1
for?i?in?range(4542,5589):
dic?=?{}
url?=?'https://www.lxybaike.com/index.php?doc-view-'+str(i)+'.html'
print('已成功采集{}條數據'.format(n))
html?=?restaurant(url)
doc?=?pq(html)
dic['tittle']?=?doc('#doctitle').text()
dic['num']?=?doc('#doc-aside?>?div.columns.ctxx?>?ul?>?li:nth-child(1)').text()
data.append(dic)
time.sleep(random.random())
n?=?n?+?1
return?data
爬取成功√
共929個詞語。
我們在獲取這些熱門流行詞的同時,也獲取了他們的一些其他數據,比如瀏覽次數和出現時間。
18a8dbac379c61faeac94387d25be66a.jpg (1.45 KB, 下載次數: 0)
2019-12-10 04:43 上傳
但瀏覽次數很難作為評判這個詞語是否熱門的指標,畢竟大家又不是都來這個網站搜索,所以還是需要一個全網的數據才更準確一點。
一開始選擇了百度指數,結果發現很多詞語沒有收錄,需要付費。于是我就選用了搜狗指數!
29ecaeda685986a6d866fe0e71978470.jpg (26.74 KB, 下載次數: 0)
2019-12-10 04:43 上傳
將剛才爬取得到的929個網絡流行語,可以根據下面式子來構造url。
urls=?'http://zhishu.sogou.com/index/searchHeat?kwdNamesStr='+str(name)+'&timePeriodType=YEAR&dataType=SEARCH_ALL'
再循環爬取依次得到他們的年度平均搜索指數。
成功得到2019年度網絡熱門流行詞排行榜(凹凸玩數據版)!
a3cc1f67bd63f9adfdcf8a0b4092c95a.jpg (1.6 KB, 下載次數: 0)
2019-12-10 04:43 上傳
其中標記綠色的詞語為2018年末出現,在2019年開始流行,在統計時也列入列入2019流行語中。
2019網絡熱門流行詞排行榜
根據上文得到的熱門流行詞排行榜,小五又搜集了一些網上的資料?,利用PS來制作了十張流行詞的解釋圖。
下面開始頒獎:
a6ddbecf687a0b21da59bcf3fbb5c022.jpg (137.57 KB, 下載次數: 0)
2019-12-10 04:43 上傳
7e82671017589cdf75d30381e9c6b129.jpg (155.98 KB, 下載次數: 0)
2019-12-10 04:43 上傳
c7eb68572d035949321679c8d955028e.jpg (132.74 KB, 下載次數: 0)
2019-12-10 04:43 上傳
f20afbd6b6ffd0d7c49190aebc7e7e65.jpg (147.48 KB, 下載次數: 0)
2019-12-10 04:43 上傳
0a12d45b2324c0834e6ae80802ddf48a.jpg (127.49 KB, 下載次數: 0)
2019-12-10 04:43 上傳
5adda4f906d5307135ab0e1b2a8b4e21.jpg (109.68 KB, 下載次數: 0)
2019-12-10 04:43 上傳
a26b0c9b60d0d4dac3650db3c971f766.jpg (147.62 KB, 下載次數: 0)
2019-12-10 04:43 上傳
cb511e765a24511056588f0354328596.jpg (156.05 KB, 下載次數: 0)
2019-12-10 04:43 上傳
f56d9e9fd888bf96f605046467a89852.jpg (190.74 KB, 下載次數: 0)
2019-12-10 04:43 上傳
ae68d36d8cc15a2987db294a3b48e35d.jpg (146.02 KB, 下載次數: 0)
2019-12-10 04:43 上傳
一千個人眼中就有一千個哈姆雷特。
相信每個人心里都有自己的一個流行語排行榜。
不知道小五重新定義的排行榜與你心中的相差多少?
相關爬蟲源碼已上傳github:https://github.com/zpw1995/aotodata/tree/master/interest/popular作者:朱小五,互聯網公司數據分析師。熱衷于Python爬蟲,數據分析,可視化,個人公眾號《凹凸玩數據》,有趣的不像個技術號~
End
4e7d4b146bb4506a3fbb193f6fc13dd1.jpg (59.72 KB, 下載次數: 0)
2019-12-10 04:43 上傳
82a6ccfa8d7c06c0b568e27cf01e7cc3.jpg (58.86 KB, 下載次數: 0)
2019-12-10 04:43 上傳
2ca21464023cecc343f6460a5e071775.jpg (73.89 KB, 下載次數: 0)
2019-12-10 04:43 上傳
a40d98e451d65736cd8b251f0700a73b.jpg (42.66 KB, 下載次數: 0)
2019-12-10 04:43 上傳
游客,本帖隱藏的內容需要積分高于 10240000 才可瀏覽,您當前積分為 0