爬蟲學習的一點心得
登陸主要有3種方法:使用selenium,cookies,模擬表單登陸
個人對于一般情況使用cookies登陸
可以實現一次手動,長期自動,可以繞過登陸(登陸的相關信息密碼,賬號等會存于cookies中)
注意:get網頁信息時候最好是先建立一個session,不要直接requests.get(),否則對服務器而言相當于每次新開一個瀏覽器來訪問容易被識別,不符合用戶行為
先創建一個session,然后每次都用同一個session去訪問,注意對于HTTPS的網站,需要帶上參數verify=False,否則爬蟲會報錯!