如何使用cookie信息,完成自動登錄

在做爬蟲任務的時候,我們常常會遇到很多網頁必須登錄后,才可以開放某些頁面。所以登錄是爬取網頁的第一步。但是,通過post表單(包含用戶名和密碼)的方法,對于那些不需要輸入比較復雜的驗證碼的網頁,可以使用正則表達式將驗證碼和驗證碼的ID匹配得出,然后實現自動化登錄。但是,現在多部分的網頁都是需要輸入圖片驗證碼的,所以必須得通過人工的識別圖片然后輸入驗證碼。當然,你也可以開發一個深度學習算法,將下載下來的驗證碼圖片進行識別,然后轉換為數字進行輸入,但是這樣就大大的提高了算法的成本,本來你只是要爬取一些簡單的信息,卻的開發一個實用的驗證碼識別算法,實屬劃不來。所以,我們可以通過使用cookie信息,完成自動化輸入,而且每次訪問網站的時候都不需要輸入賬號,密碼和驗證碼等信息,相當于你在瀏覽器上勾選了記住我和自動登錄的選項。下面就讓我們開始學習如何使用cookie信息完成自動的登錄,以爬取豆瓣網內容為例。

一.輸入驗證碼登錄

首先,我給出一個不使用cookie信息來登錄的例子代碼

import requests
import html5lib
import re
from bs4 import BeautifulSoup

s = requests.Session()
url_login = 'http://accounts.douban.com/login' #該網址通過跟蹤登錄信息可以查看到
#登錄的表單
formdata = {
? ? 'redir':'https://www.douban.com',#登錄后直接跳轉的頁面
? ? 'form_email': '2324973098.com', #賬戶郵箱名(這是我自己亂寫的郵箱號碼,使用時請換成你自己的郵箱號)
? ? 'form_password': '12345678!',#登錄密碼(這是我自己亂寫的密碼,使用時請換成你自己的密碼)
? ? 'login': u'登陸'
}
#登錄的頭信息,為了模擬瀏覽器登錄,屬于固定形式
headers = {'user-agent': 'Mozilla/5.0 (Windows NT 6.3; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/44.0.2403.157 Safari/537.36'}

r = s.post(url_login, data = formdata, headers = headers)
content = r.text
soup = BeautifulSoup(content, 'html5lib')#使用HTML5進行解析網頁
captcha = soup.find('img', id = 'captcha_image')#獲取驗證碼圖的鏈接
#判斷是否需要驗證碼,需要則人工輸入
if captcha:
? ? captcha_url = captcha['src']
? ? re_captcha_id = r'<input type="hidden" name="captcha-id" value="(.*?)"/'#找出驗證碼的ID,都可以通過跟蹤登錄過程知道
? ? captcha_id = re.findall(re_captcha_id, content)
? ? print(captcha_id)
? ? print(captcha_url)
? ? captcha_text = input('Please input the captcha:')#通過將輸出的驗證碼圖片網頁鏈接復制到瀏覽器打開,然后觀察驗證碼,然后輸入登錄
? ? formdata['captcha-solution'] = captcha_text
? ? formdata['captcha-id'] = captcha_id? ?#加入驗證碼的信息后,從新構造表單,然后申請登錄
? ? r = s.post(url_login, data = formdata, headers = headers)
with open('contacts.txt', 'w+', encoding = 'utf-8') as f:

? ? f.write(r.text)

二.使用cookie信息登錄

步驟:

1.使用你的賬號和密碼登錄豆瓣主頁,并且在登錄頁勾選記住我的選項。


2.打開瀏覽器,并按F12鍵,調出開發者工具,找到network這一選項,選中all,如下圖所示:


3.在該業中輸入豆瓣主頁https://www.douban.com/,然后便可以在下面的監視框內看到登錄的信息,如下圖:


4.找到最前面的一項,顯示的是www.douban.com,單擊后,點擊header,如下圖:


5.在header下面找到cookie信息便可,然后將cookie信息復制到代碼中。如下圖:



為了保護我的豆瓣的賬戶信息,所以這里cookie信息進行遮蔽,還望諒解。

代碼如下:

import requests

headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 6.3; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/44.0.2403.157 Safari/537.36'}

cookies = {'cookie': 'bid=10gz8L7vrjI; __yadk_uid=QTSUUYvkbEDpprCxnGHo2vDkzhjkNgWB; ll="108288"; 608; ue="2314963088@qq.com"; push_noty_num=0; push_doumail_num=0; __utmv=30149280.17557; __utmt=1; dbcl2="175570305:1c9NM2YiWlg";ue="2314963088@qq.com"; push_noty_num=0; push_doumail_num=0; __utmv=30149280.17557; __utmt=1; dbcl2="175570305:1c9NM2YiWlg";?ck=Yiiv; _pk_id.100001.8cb4=3997ae079664ac75.1508600267.12.1521361971.1520843669.; __utmb=30149280.11.10.1521360343'}

r = requests.get(url, cookies = cookies, headers = headers)
# print(r.text)
with open('douban_2.txt', 'wb+') as f:

? ? f.write(r.content)


到這里為止,你就完成了使用cookie的所有步驟,以后想再次訪問該網站則不在需要輸入驗證碼等信息了。

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/news/445517.shtml
繁體地址,請注明出處:http://hk.pswp.cn/news/445517.shtml
英文地址,請注明出處:http://en.pswp.cn/news/445517.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

Spring Cloud 學習筆記(1 / 3)

Spring Cloud 學習筆記&#xff08;2 / 3&#xff09; Spring Cloud 學習筆記&#xff08;3 / 3&#xff09; ---01_前言閑聊和課程說明02_零基礎微服務架構理論入門03_第二季Boot和Cloud版本選型04_Cloud組件停更說明05_父工程Project空間新建06_父工程pom文件07_復習Depend…

后綴樹/后綴數組

字典樹&#xff1a;https://blog.csdn.net/hebtu666/article/details/83141560 后綴樹&#xff1a;后綴樹&#xff0c;就是把一串字符的所有后綴保存并且壓縮的字典樹。 相對于字典樹來說&#xff0c;后綴樹并不是針對大量字符串的&#xff0c;而是針對一個或幾個字符串來解決…

kaggle(02)-房價預測案例(基礎版)

房價預測案例 Step 1: 檢視源數據集 import numpy as np import pandas as pd讀入數據 一般來說源數據的index那一欄沒什么用&#xff0c;我們可以用來作為我們pandas dataframe的index。這樣之后要是檢索起來也省事兒。 有人的地方就有鄙視鏈。跟知乎一樣。Kaggle的也是個處…

為什么Python中整型不會溢出

前言 本次分析基于 CPython 解釋器&#xff0c;python3.x版本 在python2時代&#xff0c;整型有 int 類型和 long 長整型&#xff0c;長整型不存在溢出問題&#xff0c;即可以存放任意大小的整數。在python3后&#xff0c;統一使用了長整型。這也是吸引科研人員的一部分了&am…

如何使用github中的pull request功能?

* pull request是社會化編程的象征&#xff0c;通過這個功能&#xff0c;你可以參與到別人開發的項目中&#xff0c;并做出自己的貢獻。pull request是自己修改源代碼后&#xff0c;請求對方倉庫采納的一種行為*–《github入門與實踐》 下面具體說一下github中使用pull reque…

「假裝努力」

有多少人在「假裝努力」&#xff1f; 又有多少人在「真正成長」&#xff1f; 再努力努力 回想起當年畢業后&#xff0c;在北京和室友合租的日子。 那時&#xff0c;我在工作&#xff0c;室友在培訓。 一天&#xff0c;我下班回來&#xff0c;聽見他在電話里和家人爭吵&…

如何閱讀論文?

本文主要講述了如何才能高效的閱讀一篇論文&#xff01;&#xff01;

貪吃蛇js

python都學不懂&#xff0c;c又不會&#xff0c;只能寫寫js來維持生活了。555555 js&#xff1a; window.onload function() {var wrap document.getElementsByClassName("wrap")[0];var uls document.getElementsByClassName("sbody")[0];var hand …

Android studio安裝過程中入的坑的記錄與記錄

Android studio安裝過程中入的坑的記錄與記錄 * 由于最近項目的需求&#xff0c;所以最近一直在配置安卓的開發環境&#xff0c;之前用的是Eclipse ADT的模式開發的&#xff0c;配置環境也花了一些時間&#xff0c;但是由于谷歌大力扶持它的親兒子Android Studio&#xff0c;…

動態規劃基礎水題提綱

提綱 漢諾塔 漢諾塔&#xff1a;漢諾塔&#xff08;又稱河內塔&#xff09;問題是源于印度一個古老傳說的益智玩具。大梵天創造世界的時候做了三根金剛石柱子&#xff0c;在一根柱子上從下往上按照大小順序摞著64片黃金圓盤。大梵天命令婆羅門把圓盤從下面開始按大小順序重新…

數據結構課上筆記8

串的概念&#xff1a;串&#xff08;字符串&#xff09;&#xff1a;是由 0 個或多個字符組成的有限序列。 通常記為&#xff1a;s ‘ a1 a2 a3 … ai …an ’ ( n≥0 )。 串的邏輯結構和線性表極為相似。 一些串的類型&#xff1a; 空串&#xff1a;不含任何字符的串&#x…

數據結構課上筆記9

數組&#xff1a;按一定格式排列起來的具有相同類型的數據元素的集合。 二維數組&#xff1a;若一維數組中的數據元素又是一維數組結構&#xff0c;則稱為二維數組。 同理&#xff0c;推廣到多維數組。若 n -1 維數組中的元素又是一個一維數組結構&#xff0c;則稱作 n 維數組…

pySerial -- Python的串口通訊模塊

pySerial Overview This module encapsulates the access for the serial port. It provides backends for Python running on Windows, Linux, BSD (possibly any POSIX compliant system), Jython and IronPython (.NET and Mono). The module named “serial” automatica…

串的堆分配實現

今天&#xff0c;線性結構基本就這樣了&#xff0c;以后&#xff08;至少是最近&#xff09;就很少寫線性基礎結構的實現了。 串的類型定義 typedef struct {char *str;int length; }HeapString; 初始化串 InitString(HeapString *S) {S->length0;S->str\0; } 長度 …

Numpy 入門

Numpy 入門 Numpy簡介 官網鏈接&#xff1a;http://www.numpy.org/NumPy是Python語言的一個擴充程序庫。支持高級大量的維度數組與矩陣運算&#xff0c;此外也針對數組運算提供大量的數學函數庫 Numpy的基本功能 快速高效的多維數組對象ndarray用于對數組執行元素級計算以…

數據結構課上筆記10

樹 樹的定義&#xff1a;樹(Tree)是 n(n≥0)個結點的有限集。若 n0&#xff0c;稱為空樹&#xff1b;若 n > 0&#xff0c;則它滿足如下兩個條件&#xff1a; (1) 有且僅有一個特定的稱為根 (Root) 的結點&#xff1b; (2) 其余結點可分為 m (m≥0) 個互不相交的有限…

pandasStudyNoteBook

pandas 入門培訓 pandas簡介 - 官網鏈接&#xff1a;http://pandas.pydata.org/ - pandas pannel data data analysis - Pandas是python的一個數據分析包 , Pandas最初被作為金融數據分析工具而開發出來&#xff0c;因此&#xff0c;pandas為時間序列分析提供了很好的支持 …

最大搜索子樹

給定一個二叉樹的頭結點&#xff0c;返回最大搜索子樹的大小。 我們先定義結點&#xff1a; public static class Node {public int value;public Node left;public Node right;public Node(int data) {this.value data;}} 分析&#xff1a; 直接判斷每個節點左邊小右邊大是…

二叉樹最長路徑

分析&#xff1a; 暴力求每一段距離也可。 對于以本節點為根的二叉樹&#xff0c;最遠距離有三種可能&#xff1a; 1&#xff09;最遠路徑來自左子樹 2 &#xff09;最遠路徑來自右子樹&#xff08;圖示與左子樹同理&#xff09; 3&#xff09;最遠路徑為左右子樹距離根最遠…

判斷完全二叉樹

完全二叉樹的定義: 一棵二叉樹&#xff0c;除了最后一層之外都是完全填充的&#xff0c;并且最后一層的葉子結點都在左邊。 https://baike.baidu.com/item/%E5%AE%8C%E5%85%A8%E4%BA%8C%E5%8F%89%E6%A0%91/7773232?fraladdin 百度定義 思路&#xff1a;層序遍歷二叉樹 如果…