Python爬蟲——requests_cookie登陸古詩文網

  1. 尋找登陸需要的參數
__VIEWSTATE:aiMG0UXAfCzak10C7436ZC/RXoZbM2lDlX1iU/4wjjdUNsW8QU+s6W2/3M6XIKagQZrC7ooD8Upj8u+CnpQ+MXjDAp6fS/NM2nGhnKO0KOSXfT3jGHhJAOBouMI3Qnlp+JCQKPXfVDJPYwh169MGLFC6trY=
__VIEWSTATEGENERATOR: C93BE1AE
from: http://so.gushiwen.cn/user/collect.aspx
email: 賬號
pwd: 密碼
code: 驗證碼
denglu: 登錄
其中__VIEWSTATE,__VIEWSTATEGENERATOR和code是一個可以變化的量
  1. 獲取頁面源碼
import requests# 登陸界面的url地址
url = 'https://so.gushiwen.cn/user/login.aspx?from=http://so.gushiwen.cn/user/collect.aspx'headers = {'User-Agent': ''
}# 獲取頁面源碼
response = requests.get(url, headers=headers)
content = response.text
  1. 解析網頁源碼,獲取__VIEWSTATE和__VIEWSTATEGENERATOR的值
# 解析網頁源碼    獲取__VIEWSTATE和__VIEWSTATEGENERATOR
soup = BeautifulSoup(content, 'lxml')# 獲取__VIEWSTATE
viewstate = soup.select('#__VIEWSTATE')[0].attrs.get('value')# 獲取__VIEWSTATEGENERATOR
viewstategenerator = soup.select('#__VIEWSTATEGENERATOR')[0].attrs.get('value')
  1. 獲取驗證碼,這里使用的是session()方法
# 獲取驗證碼圖片
code_url = soup.select('#imgCode')[0].attrs.get('src')
code_url = 'https://so.gushiwen.cn' + code_url# session()方法 通過session的返回值,就能使請求變成一個對象
session = requests.session()
# 驗證碼url的內容
response_code = session.get(code_url)
# 這里要使用二進制數據,因為是要下載圖片
content_post = response_code.content
# wb是將二進制數據寫入到文件
with open('files/code.jpg', 'wb')as fp:fp.write(content_post)code = input('輸入驗證碼:')
  1. 登陸
# 登陸
data_post = {'__VIEWSTATE': viewstate,'__VIEWSTATEGENERATOR': viewstategenerator,'from': 'http://so.gushiwen.cn/user/collect.aspx','email': 賬號,'pwd': 密碼,'code': code,'denglu': '登錄'
}response_post = session.post(url, data=data_post, headers=headers)
content_post = response_post.text
# 保存到本地
with open('files/gushiwen.html', 'w', encoding='utf-8')as fp:fp.write(content_post)

完整代碼

import requests
from bs4 import BeautifulSoup
import chaojiying# 目標:通過登陸,進入到主界面# 登陸需要的參數
# __VIEWSTATE: aiMG0UXAfCzak10C7436ZC/RXoZbM2lDlX1iU/4wjjdUNsW8QU+s6W2/3M6XIKagQZrC7ooD8Upj8u+CnpQ+MXjDAp6fS/NM2nGhnKO0KOSXfT3jGHhJAOBouMI3Qnlp+JCQKPXfVDJPYwh169MGLFC6trY=
# __VIEWSTATEGENERATOR: C93BE1AE
# from: http://so.gushiwen.cn/user/collect.aspx
# email: 508785507@qq.com
# pwd: 20030904am
# code: e3lk
# denglu: 登錄
# 其中__VIEWSTATE,__VIEWSTATEGENERATOR和code是一個可以變化的量# 登陸界面的url地址
url = 'https://so.gushiwen.cn/user/login.aspx?from=http://so.gushiwen.cn/user/collect.aspx'headers = {'User-Agent': ''
}# 獲取頁面源碼
response = requests.get(url, headers=headers)
content = response.text# 解析網頁源碼    獲取__VIEWSTATE和__VIEWSTATEGENERATOR
soup = BeautifulSoup(content, 'lxml')# 獲取__VIEWSTATE
viewstate = soup.select('#__VIEWSTATE')[0].attrs.get('value')# 獲取__VIEWSTATEGENERATOR
viewstategenerator = soup.select('#__VIEWSTATEGENERATOR')[0].attrs.get('value')# 獲取驗證碼圖片
code_url = soup.select('#imgCode')[0].attrs.get('src')
code_url = 'https://so.gushiwen.cn' + code_url# 使用session()方法 通過session的返回值,就能使請求變成一個對象
session = requests.session()
# 驗證碼url的內容
response_code = session.get(code_url)
# 這里要使用二進制數據,因為是要下載圖片
content_post = response_code.content
# wb是將二進制數據寫入到文件
with open('files/code.jpg', 'wb')as fp:fp.write(content_post)code = input('輸入驗證碼:')# 登陸
data_post = {'__VIEWSTATE': viewstate,'__VIEWSTATEGENERATOR': viewstategenerator,'from': 'http://so.gushiwen.cn/user/collect.aspx','email': '','pwd': '','code': code,'denglu': '登錄'
}response_post = session.post(url, data=data_post, headers=headers)
content_post = response_post.text
# 保存到本地
with open('files/gushiwen.html', 'w', encoding='utf-8')as fp:fp.write(content_post)

不過這種方法需要手動輸入驗證碼,太麻煩,還有一個可以花點小錢來解決這個問題的方法,那就是使用自動識別驗證碼的平臺,這里用的是超級鷹https://www.chaojiying.com/

  1. 先注冊一個賬號
  2. 進入用戶中心,購買積分(1塊錢有1000點,學習使用完全是夠了)
  3. 點擊開發文檔找到python語言下載,點擊下載
    在這里插入圖片描述
  4. 下載完成后解壓,放到程序文件夾目錄下
  5. 生成軟件ID
    在這里插入圖片描述
  6. 把這里替換成自己的賬號和密碼,最后一個是上一步生成的軟件ID,也要替換掉(如果是python3.4以上的版本,print需要加())
    在這里插入圖片描述
  7. 替換
code = input('輸入驗證碼:')

替換為

# 超級鷹識別驗證碼內容
chaojiying = Chaojiying_Client('賬號', '密碼', '軟件ID')
img = open('files/code.jpg', 'rb').read()
code = chaojiying.PostPic(img, 1902).get('pic_str')

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/news/35121.shtml
繁體地址,請注明出處:http://hk.pswp.cn/news/35121.shtml
英文地址,請注明出處:http://en.pswp.cn/news/35121.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

linux 命令--查看網絡端口命令

使用 netstat 檢查端口 netstat 是一個命令行工具,可以提供有關網絡連接的信息。 netstat - atulnp會顯示所有端口和所有對應的程序,用grep管道可以過濾出想要的字段 -a :all,表示列出所有的連接,服務監聽&#xff…

Android JNI開發從0到1,java調C,C調Java,保姆級教程詳解

前些天發現了一個蠻有意思的人工智能學習網站,8個字形容一下"通俗易懂,風趣幽默",感覺非常有意思,忍不住分享一下給大家。 👉點擊跳轉到教程 第一步首先配置Android studio的NDK開發環境,首先在Android studio中下載NDK…

如何防止CSRF攻擊

背景 隨著互聯網的高速發展,信息安全問題已經成為企業最為關注的焦點之一,而前端又是引發企業安全問題的高危據點。在移動互聯網時代,前端人員除了傳統的 XSS、CSRF 等安全問題之外,又時常遭遇網絡劫持、非法調用 Hybrid API 等新…

Java超級瑪麗小游戲制作過程講解 第六天 創建背景類

package com.sxt;import java.awt.image.BufferedImage;public class BackGround {//當前場景要顯示的圖像 private BufferedImage bgImagenull;//記錄當前是第幾個場景 private int sort;//判斷是否是最后一個場景 private boolean flag;public BackGround(){}public BackGrou…

【CGroupAndroid實踐篇】四、Native Service進程啟動及控制組遷移

寫在前面 承接上一篇,在cgroup子系統初始化完成后,init會繼續執行開機流程,且通過代哦用ExecuteCommand()函數。 /system/core/init/init.cppint SecondStageMain(int argc, char** argv) {......ActionManager& am = ActionManager::GetInstance();am.ExecuteOneCo…

ASIC芯片設計全流程項目實戰課重磅上線 ,支持 65nm制程流片 !

全流程項目實戰課學什么? 此次推出【 ASIC芯片設計全流程項目實戰課】,基于IPA圖像處理加速器,以企業級真實ASIC項目為案例,學員可參與全流程項目實踐,以及65nm真實流片! 眾所周知,放眼整個IC碩…

【Linux】【驅動】驅動框架以及掛載驅動

【Linux】【驅動】驅動框架以及掛載驅動 緒論1.配置開發環境2. 編寫驅動文件3. 編譯Makefile文件4.編譯5. 掛載驅動注意:有些開發板打開了或者禁止了printk信息,導致你看到的實驗現象可能不一樣,此時已經將文件移動到了開發板中,開發板查看文…

Flink CEP(Complex Event Processing)庫

復雜事件處理(Complex Event Processing,CEP)是一種用于在流式數據中識別和處理復雜事件模式的技術。Apache Flink 作為一個流式處理框架,也可以用于實現復雜事件處理。下面是 Flink 中實現復雜事件處理的一般原理: 事…

WebRTC音視頻通話-新增或修改SDP中的碼率Bitrate限制

WebRTC音視頻通話-新增或修改SDP中的碼率Bitrate限制參數 之前搭建ossrs服務,可以查看:https://blog.csdn.net/gloryFlow/article/details/132257196 之前實現iOS端調用ossrs音視頻通話,可以查看:https://blog.csdn.net/gloryFlo…

連接不上手機,adb devices為空:

首先說明一下,我是已經安裝了android studio,也配置了環境變量,但是還是連接不上手機 解決方案: 1.打開開發者模式 https://product.pconline.com.cn/itbk/sjtx/sjwt/1424/14246015.html 2.開啟usb調試 https://baiyunju.cc/10770 最后成功…

Nginx:Web基礎與HTTP協議

目錄 1、dns域名 1.1 dns解析方式: 1.2 域名解析服務器: 2、html 2.1 網頁、網站和主頁、域名 2.2 URL和URI 3、Web(全球廣域網,也稱萬維網) 3.1 靜態頁面 3.1.1 靜態頁面特點 3.2 動態頁面 3.2.1 動態頁面…

什么是CSS的box-sizing屬性?它有哪些取值,各有什么不同?

聚沙成塔每天進步一點點 ? 專欄簡介? CSS的box-sizing屬性? 取值? 不同之處? 寫在最后 ? 專欄簡介 前端入門之旅:探索Web開發的奇妙世界 記得點擊上方或者右側鏈接訂閱本專欄哦 幾何帶你啟航前端之旅 歡迎來到前端入門之旅!這個專欄是為那些對Web…

關于Vue構建低代碼平臺的思考

一、前言 在項目實戰開發中,尤其是大平臺系統的搭建,針對不同業務場景,需要為用戶多次編寫用于錄入、修改、展示操作的相應表單頁面。一旦表單需求過多,對于開發人員來說,算是一種重復開發,甚至是繁雜的工作…

【C++起飛之路】初級—— auto、范圍for循環、宏函數和內聯函數

auto、范圍for、內聯函數、宏函數和nullptr 一、auto — 類型推導的魔法(C 11)1、auto 是什么?2、工作原理3、優勢4、限制和注意事項 二、范圍for (C11)1、基本語法2、優勢3、工作原理4、注意事項5、C11: 范圍 for 循環的擴展: 三…

軟件測試基礎篇——LAMP環境搭建

LAMP 1、Linux系統的其他命令 find命令:在目錄下查找文件 ? 格式一:find 路徑 參數 文件名 ? 路徑:如果沒有指定路徑,默認是在當前目錄下 ? 參數:-name 根據文件名來查找,區分大小寫; -…

useState() 的使用及場景

useState是 React提供的一個Hook函數,用于在函數組件中添加和管理狀態。它允許你在函數組件中定義一個可變的狀態,并在組件的生命周期中對狀態進行更新和訪問。 使用useState可以避免使用類組件時需要定義和管理繁瑣的constructor,state和se…

HOT83-打家劫舍

leetcode原題鏈接:打家劫舍 題目描述 你是一個專業的小偷,計劃偷竊沿街的房屋。每間房內都藏有一定的現金,影響你偷竊的唯一制約因素就是相鄰的房屋裝有相互連通的防盜系統,如果兩間相鄰的房屋在同一晚上被小偷闖入,系…

適配器模式(C++)

定義 將一個類的接口轉換成客戶希望的另一個接口。Adapter模式使得原本由于接口不兼容而不能一起工作的那些類可以一起工作。 應用場景 在軟件系統中,由于應用環境的變化,常常需要將“一些現存的對象 ”放在新的環境中應用,但是新環境要求…

【Golang】一文學完 Golang 基本語法

Golang 下載 安裝包鏈接:https://share.weiyun.com/InsZoHHu IDE 下載:https://www.jetbrains.com/go/ 第一個 golang 程序 package mainimport "fmt"func main() {fmt.Println("hello golang") }每個可執行代碼都必須包含 Pack…

Flutter 狀態管理 Provider

狀態管理必要性 Flutter基于聲明式構建UI,原生則是命令式,狀態管理是用于解決聲明式開發帶來的問題。 例:命令式的原生,數據更新需要拿到對應控件并更改其顯示值;而聲明式則需要更改數據值并通過setstate更新狀態&am…