如何利用Python網絡爬蟲爬取微信朋友圈動態--附代碼(下)

前天給大家分享了如何利用Python網絡爬蟲爬取微信朋友圈數據的上篇(理論篇),今天給大家分享一下代碼實現(實戰篇),接著上篇往下繼續深入。

一、代碼實現

1、修改Scrapy項目中的items.py文件。我們需要獲取的數據是朋友圈和發布日期,因此在這里定義好日期和動態兩個屬性,如下圖所示。



2、修改實現爬蟲邏輯的主文件moment.py,首先要導入模塊,尤其是要主要將items.py中的WeixinMomentItem類導入進來,這點要特別小心別被遺漏了。之后修改start_requests方法,具體的代碼實現如下圖。



3、修改parse方法,對導航數據包進行解析,代碼實現稍微復雜一些,如下圖所示。



  • l需要注意的是從網頁中獲取的response是bytes類型,需要顯示的轉為str類型才可以進行解析,否則會報錯。
  • l在POST請求的限定下,需要構造參數,需要特別注意的是參數中的年、月和索引都需要是字符串類型的,否則服務器會返回400狀態碼,表示請求參數錯誤,導致程序運行的時候報錯。
  • l在請求參數還需要加入請求頭,尤其是Referer(反盜鏈)務必要加上,否則在重定向的時候找不到網頁入口,導致報錯。
  • l上述的代碼構造方式并不是唯一的寫法,也可以是其他的。

4、定義parse_moment函數,來抽取朋友圈數據,返回的數據以JSON加載的,用JSON去提取數據,具體的代碼實現如下圖所示。



5、在setting.py文件中將ITEM_PIPELINES取消注釋,表示數據通過該管道進行處理。



6、之后就可以在命令行中進行程序運行了,在命令行中輸入scrapy crawl moment -o moment.json,之后可以得到朋友圈的數據,在控制臺上輸出的信息如下圖所示。



7、爾后我們得到一個moment.json文件,里面存儲的是我們朋友圈數據,如下圖所示。



8、嗯,你確實沒有看錯,里邊得到的數據確實讓人看不懂,但是這個并不是亂碼,而是編碼的問題。解決這個問題的方式是將原來的moment.json文件刪除,之后重新在命令行中輸入下面的命令:scrapy crawl moment -o moment.json -s FEED_EXPORT_ENCODING=utf-8,此時可以看到編碼問題已經解決了,如下圖所示。



下一篇文章,小編帶大家將抓取到的朋友圈數據進行可視化展示,敬請關注~~


本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/news/278012.shtml
繁體地址,請注明出處:http://hk.pswp.cn/news/278012.shtml
英文地址,請注明出處:http://en.pswp.cn/news/278012.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

使用Adaptive cards來構建Teams app的界面

Teams app的task module十分好用,當用戶點擊了一個卡片上的按鈕是可以在Teams里彈出一個對話框,對話框的內容可以是開發人員自己的一個網頁頁面,或者是adaptive card。 在我的LuckyDraw bot里,我比較了這兩種的優勢和劣勢&#xf…

Boosting(提升方法)之GBDT

一、GBDT的通俗理解 提升方法采用的是加法模型和前向分步算法來解決分類和回歸問題,而以決策樹作為基函數的提升方法稱為提升樹(boosting tree)。GBDT(Gradient Boosting Decision Tree)就是提升樹算法的一種,它使用的基學習器是C…

CC攻擊原理及防范方法

一、 CC攻擊的原理: CC攻擊的原理就是攻擊者控制某些主機不停地發大量數據包給對方服務器造成服務器資源耗盡,一直到宕機崩潰。CC主要是用來消耗服務器資源的,每個人都有這樣的體驗:當一個網頁訪問的人數特別多的時候&#xff0c…

Team photo的新api

Graph API的更新速度真是快,今年9月中旬又增加了關于Team photo的兩個新的api。 https://docs.microsoft.com/en-us/graph/api/team-get-photohttps://docs.microsoft.com/en-us/graph/api/team-update-photo 今天就給大家介紹一下如何使用這兩個新的api。 實際上說…

BZOJ 1047: [HAOI2007]理想的正方形 單調隊列瞎搞

題意很簡明吧? 枚舉的矩形下邊界和右端點即右下角,來確定矩形位置; 每一個縱列開一個單調隊列,記錄從 i-n1 行到 i 行每列的最大值和最小值,矩形下邊界向下推移的時候維護一下; 然后在記錄的每一列的最大值…

分享到Teams

在今年三月份末,Teams的官方文檔推出了一個新功能:將網頁(一個URL)分享到Teams里。 也就是說開發人員現在可以很方便的開發一個頁面,頁面里有一個Teams的圖標,當訪問此頁面的最終用戶點擊這個圖標后可以將…

xshell使用xftp傳輸文件和使用pure-ftpd搭建ftp服務

xshell使用xftp傳輸文件 首先安裝xftp,然后建立會話,步驟和xshell一樣,在使用的時候用CtrlALTf呼出,左邊是windows桌面,右面是linux,雙擊或拖拽都可以實現命令互傳。 使用pure-ftpd搭建ftp服務 首先安裝yum…

MySQL命令行查詢亂碼解決方法

轉自Agoly的博客,原文鏈接https://www.cnblogs.com/qmfsun/p/4846467.html 感謝博主Agoly這篇文章說的很詳細很透徹。 MySQL會出現中文亂碼的原因不外乎下列幾點:1.server本身設定問題,例如還停留在latin1 2.table的語系設定問題(包含charact…

Teams Bot如何判斷用戶所在的時區

一說到時間,就會聯想到時區,夏令時等頭痛的問題,不同國家有不同國家的規定。如果你希望你的Teams Bot可以判斷出當前用戶所在的時區,從而可以針對性的進行一些處理時,你要做好心理準備,這個復雜程度遠遠超過…

『流暢的Python』第1~4章筆記_數據結構、編碼

由于1~4章內容零散且基礎,所以統計一下涉及到的內容,記錄一下,方便查閱(第一張圖右鍵新頁面打開即可看到清晰大圖)

docker 安裝ELK

參考文檔: Docker ELK使用文檔:http://elk-docker.readthedocs.io/ 1.拉取鏡像 查看 Docker Hub 的鏡像 docker search elk 拉取鏡像 sudo docker pull sebp/elk 2.啟動容器 docker run -p 5601:5601 -p 9200:9200 -p 5044:5044 -p 4560:4560 -it --na…

在Teams Hackathon上介紹LuckyDraw

很榮幸有機會在今天的Teams Hackathon上介紹LuckyDraw這個teams app。 因為到場的都是各路開發高手,所以當時在準備這個ppt的時候特別增加了難度等級,哈哈。 從如何構建云原生的Teams app,到IaC,重點講了如何開發一個面向全球用戶…

Word 2010 制作文檔結構之圖標自動編號設置

注意: 使用圖片自動編號時,如果文檔標題使用的樣式是通過“將所選內容保存為新快速樣式”所生成的樣式,則圖片自動編號不會生效 因此設置標題樣式時,不要 新建樣式,直接使用word預設的“標題 1”樣式和“標題 2”樣式即…

ubuntu linux下建立stm32開發環境: 程序燒錄 openocd+openjtag

原文出處: http://blog.csdn.net/embbnux/article/details/17619621 之前建立stm32開發環境,程序也已經編譯好生成main.bin,接下來就是要把該文件燒錄到stm32上.在linux下給arm燒錄程序主要使用openocd,這個軟件開源,而且支持眾多芯片,從ARM9到A8都可以,當然STM32也…

在Teams中對網站的URL特殊解析

Teams中有一個不太被大家注意的擴展點,名字叫Link unfurling,就是對于一些特殊域名的URL進行特別的解釋。 可能這么說,大家還是無法理解,我們看一下下面這個圖,當用戶在message輸入框中輸入了一竄url后,Te…

Wireshark 在Windows下的安裝

1、wireshark官網地址:https://www.wireshark.ort/ 下載抓包驅動:windows使用winpcap,Linux使用libcap2、安裝下載好的wireshark程序包:3、安裝winpcap插件:4、安裝USBPcap插件:5、安裝完成&…

Teams團隊的成員列表API的已知問題

如果大家經常使用Graph API來對Teams進行操作管理的話,有時候會遇到一些奇怪的問題,我前兩天還在Stack Overflow上回答了一個用戶的問題,這個問題我自己也遇到過。所以我想用這篇文章來分享一下,萬一以后大家遇到類似的問題&#…

OSChina 周三亂彈 —— 爸爸說,這個是從他硬盤里掉出來的

2019獨角獸企業重金招聘Python工程師標準>>> Osc亂彈歌單(2018)請戳(這里) 【今日歌曲】 煥煥 :分享鄭秀文的單曲《唉聲嘆氣》 《唉聲嘆氣》 手機黨少年們想聽歌,請使勁兒戳(這里&am…

改進的二分查找

1 import java.util.Comparator;2 3 public class MyUtil {4 5 public static <T extends Comparable<T>> int binarySearch(T[] x, T key) {6 return binarySearch(x, 0, x.length- 1, key);7 }8 9 // 使用循環實現的二分查找 10 public static…

LuckyDraw app被評為Microsoft365 App Award

今天查了一下LuckyDraw app&#xff0c;突然發現我上半年開發的Teams app: LuckyDraw&#xff0c;竟然多了一個勛章圖標&#xff0c;點進去一看是微軟給我的app評了一個”Microsoft 365 App Award”。Super surprise!!&#x1f60d;&#x1f60d;&#x1f60d; 看來我必須要抓…