解決python3 UnicodeEncodeError: 'gbk' codec can't encode character '\xXX' in position XX

?

從網上抓了一些字節流,想打印出來結果發生了一下錯誤:

UnicodeEncodeError: 'gbk' codec can't encode character '\xbb' in position 8530: illegal multibyte sequence

代碼

  1. import urllib.request

  2. res=urllib.request.urlopen('http://www.baidu.com')

  3. htmlBytes=res.read()

  4. print(htmlBytes.decode('utf-8'))


錯誤信息讓人很困惑,為什么用的是'utf-8'解碼,錯誤信息卻提示'gbk'錯誤呢?

?

不僅如此,從百度首頁的html中發現以下代碼:

?

<meta http-equiv="content-type" content="text/html;charset=utf-8">


這說明網頁的確用的是utf-8,為什么會出現Error呢?

?

在python3里,有幾點關于編碼的常識

1.字符就是unicode字符,字符串就是unicode字符數組

如果用以下代碼測試,

?

print('a'=='\u0061')


會發現結果為True,足以說明兩者的等價關系。

?

2.str轉bytes叫encode,bytes轉str叫decode,如上面的代碼就是將抓到的字節流給decode成unicode數組

我根據上面的錯誤信息分析了字節流中出現\xbb的地方,發現有個\xc2\xbb的特殊字符?,我懷疑是它無法被解碼。

用以下代碼測試后

?

print(b'\xc2\xbb'.decode('utf-8'))

它果然報錯了:UnicodeEncodeError: 'gbk' codec can't encode character '\xbb' in position 0: illegal multibyte sequence

?

上網找了下utf-8編碼表,發現的確特殊字符?的utf-8形式就是c2bb,unicode是'\u00bb',為什么無法解碼呢。。。

仔細看看錯誤信息,它提示'gbk'無法encode,但是我的代碼是utf-8無法decode,壓根牛頭不對馬嘴,終于讓我懷疑是print函數出錯了。。于是立即有了以下的測試

?

print('\u00bb')

結果報錯了:UnicodeEncodeError: 'gbk' codec can't encode character '\xbb' in position 0: illegal multibyte sequence

?

原來是print()函數自身有限制,不能完全打印所有的unicode字符。

知道原因后,google了一下解決方法,其實print()函數的局限就是Python默認編碼的局限,因為系統是win7的,python的默認編碼不是'utf-8',改一下python的默認編碼成'utf-8'就行了

?

  1. import io

  2. import sys

  3. import urllib.request

  4. sys.stdout = io.TextIOWrapper(sys.stdout.buffer,encoding='utf8') #改變標準輸出的默認編碼

  5. res=urllib.request.urlopen('http://www.baidu.com')

  6. htmlBytes=res.read()

  7. print(htmlBytes.decode('utf-8'))

?

運行后不報錯了,但是居然有好多亂碼(英文顯示正常,中文則顯示亂碼)!!又一陣折騰后發現是控制臺的問題,具體來說就是我在cmd下運行該腳本會有亂碼,而在IDLE下運行卻很正常。

由此我推測是cmd不能很好地兼容utf8,而IDLE就可以,甚至在IDLE下運行,連“改變標準輸出的默認編碼”都不用,因為它默認就是utf8。如果一定要在cmd下運行,那就改一下編碼,比如我換成“gb18030”,就能正常顯示了:

?

sys.stdout = io.TextIOWrapper(sys.stdout.buffer,encoding='gb18030')         #改變標準輸出的默認編碼

最后,附上一些常用的和中文有關的編碼的名稱,分別賦值給encoding,就可以看到不同的效果了:

?

?

編碼名稱用途
utf8所有語言
gbk簡體中文
gb2312簡體中文
gb18030簡體中文
big5繁體中文
big5hkscs繁體中文

?

?

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/news/456798.shtml
繁體地址,請注明出處:http://hk.pswp.cn/news/456798.shtml
英文地址,請注明出處:http://en.pswp.cn/news/456798.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

Linux中的crontab詳解

linux系統則是由 cron (crond) 這個系統服務來控制的。Linux 系統上面原本就有非常多的計劃性工作&#xff0c;因此這個系統服務是默認啟動的。另外, 由于使用者自己也可以設置計劃任務&#xff0c;所以&#xff0c; Linux 系統也提供了使用者控制計劃任務的命令 :crontab 命令…

centos7如何安裝cloud-init

cloud-init rpm包下載地址&#xff1a;https://pkgs.org/download/cloud-init http://www.rpmfind.net/linux/RPM/index.html 轉載于:https://www.cnblogs.com/double12gzh/p/10166131.html

實現一個簡單的前端水印

需求分析 水印效果如下&#xff1a; 除了直觀需求&#xff0c;還有非直觀需求。 這是個背景圖。文字樣式以及文字本身可調整。對于需求1&#xff0c;需要前端生成圖片的能力。 該能力的原理&#xff1a;借用canvas.toDataURL()或者(new XMLSerializer()).serializeToString()生…

QQ客服聊天功能網頁跳轉只需要幾行代碼

<html><head><meta charset"utf-8"></head><body><a target"_blank" href"http://wpa.qq.com/msgrd?v3&uin客服QQ號&siteqq&menuyes"><img border"0" src"http://wpa.qq.co…

HDU 2234 IDA*

無題I Time Limit: 10000/10000 MS (Java/Others) Memory Limit: 32768/32768 K (Java/Others)Total Submission(s): 1648 Accepted Submission(s): 640 Problem Description一天機器人小A在玩一個簡單的智力游戲&#xff0c;這個游戲是這樣的&#xff0c;在一個4*4的矩陣…

Linux環境下Mysql的安裝教程及安裝過程常見問題的解決方法

最近安裝mysql時看到一篇不錯的文章 1、下載 下載地址&#xff1a;http://dev.mysql.com/downloads/mysql/5.6.html#downloads 下載版本&#xff1a;我這里選擇的5.6.33&#xff0c;通用版&#xff0c;linux下64位 也可以直接復制64位的下載地址&#xff0c;通過命令下載&a…

最全的微信小程序源代碼

wx-gesture-lock 微信小程序的手勢密碼 WXCustomSwitch 微信小程序自定義 Switch 組件模板 WeixinAppBdNovel 微信小程序demo&#xff1a;百度小說搜索 shitoujiandaobu 小程序&#xff1a;石頭剪刀布&#xff08;附代碼說明&#xff09; audiodemo 微信小程序開發之視頻播…

java 雙重檢查加鎖弊端

http://blog.csdn.net/axman/article/details/1089196 Java是在語言級提供對線程的支持,所以Java的內存模型分為主存儲器和工作存儲器. [Main memory]主存儲器就是實例所在的存儲區域,所有實例本身都被放在主存儲器中,當然這 句話本身就說明了實例的字段也在主存儲器中,主存儲器…

爬蟲的復習手冊

爬蟲的概念 模擬瀏覽器發送請求&#xff0c;獲取響應 爬蟲的流程 url---》發送請求&#xff0c;獲取響應---》提取數據---》保存 發送請求&#xff0c;獲取響應---》提取url&#xff08;下一頁&#xff0c;詳情頁&#xff09;重新請求 爬蟲要根據當前url地址對應的響應為準 …

Hive安裝報錯:Unable to instantiate org.apache.hadoop.hive.ql.metadata.SessionHiveMetaStoreClient的解決辦法

最近練習Hive&#xff0c;安裝時爆出如下錯誤&#xff1a;Unable to instantiate org.apache.hadoop.hive.ql.metadata.SessionHiveMetaStoreClient的錯誤 報錯的日志如下&#xff1a; Exception in thread "main" java.lang.RuntimeException: java.lang.RuntimeE…

要讀

http://www.cnblogs.com/yangml/p/3828878.html轉載于:https://www.cnblogs.com/qinqiu/p/6134683.html

Spark分布式集群的搭建和運行

集群共三臺CentOS虛擬機&#xff0c;一個Matser&#xff0c;主機名為master&#xff1b;三個Worker&#xff0c;主機名分別為master、slave03、slave04。前提是Hadoop和Zookeeper已經安裝并且開始運行。 1. 在master上下載Scala-2.11.0.tgz&#xff0c;復制到/opt/下面&#xf…

Hive2.1.1的安裝教程(元數據放在本地Mysql)

目錄1.上傳tar包2.解壓3. 設置環境變量4.設置Hive的配置文件5.啟動Hive6.安裝MySQL7.下載MySQL的驅動包8.修改Hive的配置文件9.啟動Hive10.查看MySQL數據庫 目錄 1.上傳tar包 jar包地址&#xff1a;http://hive.apache.org/downloads.html 2.解壓 tar -zxvf apache-hive-2…

App性能優化之內存優化

2019獨角獸企業重金招聘Python工程師標準>>> 為什么要進行內存優化呢&#xff1f;其實我們可以反過來想。如果不進行內存優化會產生什么樣的問題&#xff1f; App的運行是有內存限制的&#xff0c;超過限制會產生OOM&#xff0c;導致App崩潰。如果內存不進行優化&am…

python+Tesseract-OCR實現圖片識別(只適合新手)

1.首先準備環境&#xff1a; python版本&#xff1a;2.7/3.6 操作系統&#xff1a;windows系統 2.準備工具&#xff1a; tesseract-ocr 安裝后設置好環境變量 鏈接: https://pan.baidu.com/s/1j8lBbQBrrbPaHAn5ujWFSw 提取碼: 2med Pycharm 3.安裝相關python包&#xf…

Linux 網絡編程詳解四(流協議與粘包)

TCP/IP協議是一種流協議&#xff0c;流協議是字節流&#xff0c;只有開始和結束&#xff0c;包與包之間沒有邊界&#xff0c;所以容易產生粘包&#xff0c;但是不會丟包。 UDP/IP協議是數據報&#xff0c;有邊界&#xff0c;不存在粘包&#xff0c;但是可能丟包。 產生粘包問題…

解決selenium.common.exceptions.WebDriverException: Message: unknown error: call function result missin

(Session info: chrome73.0.3683.103)(Driver info: chromedriver2.30.477700 (0057494ad8732195794a7b32078424f92a5fce41),platformWindows NT 10.0.17134 x86_64)報錯如上&#xff0c;由于版本不兼容 下面是谷歌瀏覽器與chromedriver的版本對應關系&#xff0c;供參考&#…

執行Hive語句報錯:FAILED: Error in metadata: javax.jdo.JDOFatalDataStoreException: Access denied for user '

安裝個Hive真不省心&#xff0c;各種問題。最近安裝好Hive后執行Hive語句時碰到這樣的錯誤&#xff1a; hive> show databases; FAILED: Error in metadata: javax.jdo.JDOFatalDataStoreException: Access denied for user rootlocalhost (using password: YES) NestedThr…

GPU

import tensorflow as tf a tf.constant([1.0,2.0,3.0,4.0,5.0,6.0],shape[2,3],namea) b tf.constant([1.0,2.0,3.0,4.0,5.0,6.0],shape[3,2],nameb) c tf.matmul(a,b)sess tf.Session(configtf.ConfigProto(log_device_placementTrue)) print sess.run(c)

阿里云部署django項目流程【centos7+python3+mysql】

購買阿里云服務器 到[阿里云官網]&#xff0c;選擇輕量應用服務器&#xff0c; 步驟如圖所示&#xff1a; 地域隨便選擇哪一個&#xff0c;鏡像的話&#xff0c;對比了CentOS&#xff0c;Debian&#xff0c;Ubuntu&#xff0c;我最終選擇了CentOS&#xff0c;因為流行嘛&…