python爬取內容亂碼_python爬取html中文亂碼

python爬取內容亂碼_python爬取html中文亂碼

news/2025/7/9 21:35:47/文章來源:https://blog.csdn.net/weixin_39756273/article/details/110399426

環境：

python3.6

爬取代碼：

import requests

url = 'https://www.dygod.net/html/tv/hytv/'

req = requests.get(url)

print(req.text)

爬取結果：

μ?êó?? / ?aó?μ?êó??_μ?ó°ììì?-??à×μ?ó°????

如上，title內容出現亂碼，自己感覺應該是編碼的問題，但是不知道如何解決，于是上網查看

參考網址：

問題找到，原來是reqponse header只指定了type，但是沒有指定編碼(一般現在頁面編碼都直接在html頁面中)，查找原網頁可以看到

在content-type屬性中，未設置編碼格式，正常設置如下

所以使用默認的編碼格式

《HTTP權威指南》里第16章國際化里提到，如果HTTP響應中Content-Type字段沒有指定charset，則默認頁面是'ISO-8859-1'編碼。

這處理英文頁面當然沒有問題，但是中文頁面，就會有亂碼了！

print(req.apparent_encoding)

結果為：GB2312

所以只需要加上

req.encoding = req.apparent_encoding

這個就可以了！

代碼:

import requests

url = 'https://www.dygod.net/html/tv/hytv/'

req = requests.get(url)

req.encoding = req.apparent_encoding

print(req.text)

結果中文就不會亂碼了

本文來自互聯網用戶投稿，該文觀點僅代表作者本人，不代表本站立場。本站僅提供信息存儲空間服務，不擁有所有權，不承擔相關法律責任。
如若轉載，請注明出處：http://www.pswp.cn/news/538580.shtml
繁體地址，請注明出處：http://hk.pswp.cn/news/538580.shtml
英文地址，請注明出處：http://en.pswp.cn/news/538580.shtml

如若內容造成侵權/違法違規/事實不符，請聯系多彩編程網進行投訴反饋email:809451989@qq.com，一經查實，立即刪除！

相關文章

前端每日實戰：34# 視頻演示如何用純 CSS 創作在文本前后穿梭的邊框

前端每日實戰：34# 視頻演示如何用純 CSS 創作在文本前后穿梭的邊框

效果預覽按下右側的“點擊預覽”按鈕可以在當前頁面預覽，點擊鏈接可以全屏預覽。 https://codepen.io/comehope/pen/qYepNv 可交互視頻教程此視頻是可以交互的，你可以隨時暫停視頻，編輯視頻中的代碼。請用 chrome, safari, edge 打開觀看。…

閱讀更多...

not support mysql_MYSQL出現quot; Client does not support authentication quot;的解決方法

not support mysql_MYSQL出現quot; Client does not support authentication quot;的解決方法

MYSQL 幫助：A.2.3 Client does not support authentication protocolMySQL 4.1 and up uses an authentication protocol based on a password hashing algorithm that is incompatible with that used by older clients. If you upgrade the server to 4.1, attemp…

閱讀更多...

spark shell中編寫WordCount程序

spark shell中編寫WordCount程序

啟動hdfs 略http://blog.csdn.net/zengmingen/article/details/53006541 啟動spark 略安裝：http://blog.csdn.net/zengmingen/article/details/72123717 spark-shell：http://blog.csdn.net/zengmingen/article/details/72162821準備數據 vi wordcount.t…

閱讀更多...

初級英語02

初級英語02

做客 1 Diana,i havent seen you for ages,how have you been? 2 would you like something to drink? 3 give my best to your parents. 4 did you hear what happened?whats the matter with him? 5 id like to applogize for leaving so early,i brought a little gift,…

閱讀更多...

mysql計算機二級選擇題題庫_全國計算機二級mysql數據庫選擇題及答案

mysql計算機二級選擇題題庫_全國計算機二級mysql數據庫選擇題及答案

全國計算機二級mysql數據庫選擇題及答案選擇題是全國計算機二級mysql考試里的送分題，下面小編為大家帶來了全國計算機二級mysql數據庫選擇題及答案，歡迎大家閱讀！全國計算機二級mysql數據庫選擇題及答案1) 函數 max( ) 表明這是一個什么函數?…

閱讀更多...

git add 撤銷_更科學地管理你的項目，Git 簡明教程（二）

git add 撤銷_更科學地管理你的項目，Git 簡明教程（二）

修改文件內容上回說到，我們已經成功創建并提交了一個 README.md 文件到 FirstGit 版本庫中1、修改文件現在我們更改 README.md 內容2、查看版本庫狀態該文件夾內右鍵運行 Git Bash Here執行命令 git statusGit 提示我們的改動還沒有 commit，并且它給出了…

閱讀更多...

Eclipse中Copy Qualified Name復制類全名解決辦法

Eclipse中Copy Qualified Name復制類全名解決辦法

原文鏈接：http://www.cnblogs.com/zyh1994/p/6393550.html ----------------------------------------------------------------------------------------------- Eclipse中用Copy Qualified Name復制類全名時總是這樣的/struts1/src/me/edu/HelloAction.java很不…

閱讀更多...

c 連接mysql錯誤信息_使用C語言訪問MySQL數據 —— 連接和錯誤處理

c 連接mysql錯誤信息_使用C語言訪問MySQL數據 —— 連接和錯誤處理

2011-05-09 wcdj可以通過許多不同的編程語言來訪問MySQL，例如，C，C，Java，Perl，Python，Tcl，PHP等。本文主要總結使用C語言接口如何訪問MySQL數據。(一) 連接例程(二) 錯誤處理(一) 連接…

閱讀更多...

eclipse編寫wordcount提交spark運行

eclipse編寫wordcount提交spark運行

采用集成了scala的eclipse編寫代碼代碼： package wordcountimport org.apache.spark.SparkConf import org.apache.spark.SparkContextobject WordCount {def main(args: Array[String]): Unit {//非常重要，是通向Spark集群的入口val confnew SparkCon…

閱讀更多...

gitlab 刪除分支_如何刪除gitlab上默認受保護的master主分支

gitlab 刪除分支_如何刪除gitlab上默認受保護的master主分支

今天開發在檢查代碼的時候，發現master分支有問題，現在準備刪除此主分支，并且重新提交正確的代碼，不過在刪除時發現，master分支不能被刪除。ps：主分支一般都是線上分支，需要開發確認后并且做好備…

閱讀更多...

rsync服務擴展應用

rsync服務擴展應用

rsync服務擴展應用① 守護進程多模塊功能配置第一步：修改配置文件注：可以再vim中輸入：20,22copy22，表示復制20到22行到22行之后 vim /etc/rsyncd.conf[backup01]comment "backup dir by oldboy"path /backup[backup0…

閱讀更多...

NodeJs 安裝

NodeJs 安裝

進入官網下載，zip 安裝包 https://nodejs.org/en/download/ 解壓配置環境變量到安裝目錄 cmd 測試 node -v npm -v

閱讀更多...

SSH秘鑰登錄服務器

SSH秘鑰登錄服務器

一、查看本機 ssh 公鑰，生成公鑰 1.通過命令窗口 a. 打開你的 git bash 窗口 b. 進入 .ssh 目錄：cd ~/.ssh c. 找到 id_rsa.pub 文件：ls d. 查看公鑰：cat id_rsa.pub 或者 vim id_rsa.pub git–查看本機 ssh 公鑰&#xff0c…

閱讀更多...

mysql存入mtr數據_mysql mtr寫入數據

mysql存入mtr數據_mysql mtr寫入數據

selenium 打開瀏覽器import org.openqa.selenium.By; import org.openqa.selenium.WebDriver; import org.openqa.selenium.WebE ...Win8&period;1安裝Visual Studio 2015提示需要KB2919355http://www.microsoft.com/zh-cn/download/details.aspx?id42335 安裝說明: 1.若要…

閱讀更多...

diff git 代碼實現_Git 自救指南：這些坑你都跳得出嗎？

diff git 代碼實現_Git 自救指南：這些坑你都跳得出嗎？

每天都會寫架構師文章，Java技術文章天天更新，感興趣的點個關注再走唄！Git 雖然因其分布式管理方式，不完全依賴網絡，良好的分支策略，容易部署等優點，已經成為最受歡迎的源代碼管理方式。但是一分…

閱讀更多...

HDU 4812 D Tree

HDU 4812 D Tree

HDU 4812 思路： 點分治先預處理好1e6 3以內到逆元然后用map 映射以分治點為起點的鏈的值a 成他的下標 u 然后暴力跑出以分治點兒子為起點的鏈的值b，然后在map里查找inv[b]*k 代碼： #include<bits/stdc.h> using namespace std; #d…

閱讀更多...

Angular CLI 安裝

Angular CLI 安裝

安裝Angular 官網的教程，因為國內網絡環境原因，訪問不了服務器，導致安裝失敗。 1、先安裝NodeJs 安裝教程：http://blog.csdn.net/zengmingen/article/details/72650484 2、通過NodeJs中的模塊npm 命令行安裝 CLI 2.1、設置npm的…

閱讀更多...

go 寫文件_「go」項目多個文件編程

go 寫文件_「go」項目多個文件編程

golang 學習的時候很多sample 講的都是一個文件的go 文件怎么寫，但是現實中不可能所有的實現都寫到一個文件里面，按照功能的不同，要么拆分成不同的文件，要么拆分成不同的文件。下面有些個人的經驗分享下，如果有問題請指…

閱讀更多...

CycleGAN 各種變變變

CycleGAN 各種變變變

轉載自簡單介紹了一下GAN和DCGAN的原理。以及如何使用Tensorflow做一個簡單的生成圖片的demo。 Ian Goodfellow對GAN一系列工作總結的ppt，確實精彩，推薦：獨家 | GAN之父NIPS 2016演講現場直擊：全方位解讀生成對抗網絡的原理及未來…

閱讀更多...

pycharm與webstorm 2017 激活破解

pycharm與webstorm 2017 激活破解

原有的方式已經失效，見下面博文： https://blog.csdn.net/justszh/article/details/81484802

閱讀更多...

最新文章