Python字符編碼詳解

Python字符編碼詳解

http://www.cnblogs.com/huxi/archive/2010/12/05/1897271.html

本文簡單介紹了各種常用的字符編碼的特點,并介紹了在python2.x中如何與編碼問題作戰 :)????? 請注意本文關于Python的內容僅適用于2.x,3.x中str和unicode有翻天覆地的變化,請查閱其他相關文檔。?????? 尊重作者的勞動,轉載請注明作者及原文地址 >.<

1. 字符編碼簡介

1.1. ASCII

ASCII(American Standard Code for Information Interchange),是一種單字節的編碼。計算機世界里一開始只有英文,而單字節可以表示256個不同的字符,可以表示所有的英文字符和許多的控制符號。不過ASCII只用到了其中的一半(\x80以下),這也是MBCS得以實現的基礎。

1.2. MBCS

然而計算機世界里很快就有了其他語言,單字節的ASCII已無法滿足需求。后來每個語言就制定了一套自己的編碼,由于單字節能表示的字符太少,而且同時也需要與ASCII編碼保持兼容,所以這些編碼紛紛使用了多字節來表示字符,如GBxxx、BIGxxx等等,他們的規則是,如果第一個字節是\x80以下,則仍然表示ASCII字符;而如果是\x80以上,則跟下一個字節一起(共兩個字節)表示一個字符,然后跳過下一個字節,繼續往下判斷。

這里,IBM發明了一個叫Code Page的概念,將這些編碼都收入囊中并分配頁碼,GBK是第936頁,也就是CP936。所以,也可以使用CP936表示GBK。

MBCS(Multi-Byte Character Set)是這些編碼的統稱。目前為止大家都是用了雙字節,所以有時候也叫做DBCS(Double-Byte Character Set)。必須明確的是,MBCS并不是某一種特定的編碼,Windows里根據你設定的區域不同,MBCS指代不同的編碼,而Linux里無法使用MBCS作為編碼。在Windows中你看不到MBCS這幾個字符,因為微軟為了更加洋氣,使用了ANSI來嚇唬人,記事本的另存為對話框里編碼ANSI就是MBCS。同時,在簡體中文Windows默認的區域設定里,指代GBK。

1.3. Unicode

后來,有人開始覺得太多編碼導致世界變得過于復雜了,讓人腦袋疼,于是大家坐在一起拍腦袋想出來一個方法:所有語言的字符都用同一種字符集來表示,這就是Unicode。

最初的Unicode標準UCS-2使用兩個字節表示一個字符,所以你常常可以聽到Unicode使用兩個字節表示一個字符的說法。但過了不久有人覺得256*256太少了,還是不夠用,于是出現了UCS-4標準,它使用4個字節表示一個字符,不過我們用的最多的仍然是UCS-2。

UCS(Unicode Character Set)還僅僅是字符對應碼位的一張表而已,比如"漢"這個字的碼位是6C49。字符具體如何傳輸和儲存則是由UTF(UCS Transformation Format)來負責。

一開始這事很簡單,直接使用UCS的碼位來保存,這就是UTF-16,比如,"漢"直接使用\x6C\x49保存(UTF-16-BE),或是倒過來使用\x49\x6C保存(UTF-16-LE)。但用著用著美國人覺得自己吃了大虧,以前英文字母只需要一個字節就能保存了,現在大鍋飯一吃變成了兩個字節,空間消耗大了一倍……于是UTF-8橫空出世。

UTF-8是一種很別扭的編碼,具體表現在他是變長的,并且兼容ASCII,ASCII字符使用1字節表示。然而這里省了的必定是從別的地方摳出來的,你肯定也聽說過UTF-8里中文字符使用3個字節來保存吧?4個字節保存的字符更是在淚奔……(具體UCS-2是怎么變成UTF-8的請自行搜索)

另外值得一提的是BOM(Byte Order Mark)。我們在儲存文件時,文件使用的編碼并沒有保存,打開時則需要我們記住原先保存時使用的編碼并使用這個編碼打開,這樣一來就產生了許多麻煩。(你可能想說記事本打開文件時并沒有讓選編碼?不妨先打開記事本再使用文件 -> 打開看看)而UTF則引入了BOM來表示自身編碼,如果一開始讀入的幾個字節是其中之一,則代表接下來要讀取的文字使用的編碼是相應的編碼:

BOM_UTF8 '\xef\xbb\xbf'????? BOM_UTF16_LE '\xff\xfe'?????? BOM_UTF16_BE '\xfe\xff'

并不是所有的編輯器都會寫入BOM,但即使沒有BOM,Unicode還是可以讀取的,只是像MBCS的編碼一樣,需要另行指定具體的編碼,否則解碼將會失敗。

你可能聽說過UTF-8不需要BOM,這種說法是不對的,只是絕大多數編輯器在沒有BOM時都是以UTF-8作為默認編碼讀取。即使是保存時默認使用ANSI(MBCS)的記事本,在讀取文件時也是先使用UTF-8測試編碼,如果可以成功解碼,則使用UTF-8解碼。記事本這個別扭的做法造成了一個BUG:如果你新建文本文件并輸入"姹塧"然后使用ANSI(MBCS)保存,再打開就會變成"漢a",你不妨試試 :)

2. Python2.x中的編碼問題

2.1. str和unicode

str和unicode都是basestring的子類。嚴格意義上說,str其實是字節串,它是unicode經過編碼后的字節組成的序列。對UTF-8編碼的str'漢'使用len()函數時,結果是3,因為實際上,UTF-8編碼的'漢' == '\xE6\xB1\x89'。

unicode才是真正意義上的字符串,對字節串str使用正確的字符編碼進行解碼后獲得,并且len(u'漢') == 1。

再來看看encode()和decode()兩個basestring的實例方法,理解了str和unicode的區別后,這兩個方法就不會再混淆了:

?
1
2
3
4
5
6
7
8
9
10
11
12
13
# coding: UTF-8
u = u'漢'
print repr(u) # u'\u6c49'
s = u.encode('UTF-8')
print repr(s) # '\xe6\xb1\x89'
u2 = s.decode('UTF-8')
print repr(u2) # u'\u6c49'
# 對unicode進行解碼是錯誤的
# s2 = u.decode('UTF-8')
# 同樣,對str進行編碼也是錯誤的
# u2 = s.encode('UTF-8')

需要注意的是,雖然對str調用encode()方法是錯誤的,但實際上Python不會拋出異常,而是返回另外一個相同內容但不同id的str;對unicode調用decode()方法也是這樣。很不理解為什么不把encode()和decode()分別放在unicode和str中而是都放在basestring中,但既然已經這樣了,我們就小心避免犯錯吧。

2.2. 字符編碼聲明

源代碼文件中,如果有用到非ASCII字符,則需要在文件頭部進行字符編碼的聲明,如下:

?
1
#-*- coding: UTF-8 -*-

實際上Python只檢查#、coding和編碼字符串,其他的字符都是為了美觀加上的。另外,Python中可用的字符編碼有很多,并且還有許多別名,還不區分大小寫,比如UTF-8可以寫成u8。參見http://docs.python.org/library/codecs.html#standard-encodings。

另外需要注意的是聲明的編碼必須與文件實際保存時用的編碼一致,否則很大幾率會出現代碼解析異常。現在的IDE一般會自動處理這種情況,改變聲明后同時換成聲明的編碼保存,但文本編輯器控們需要小心 :)

2.3. 讀寫文件

內置的open()方法打開文件時,read()讀取的是str,讀取后需要使用正確的編碼格式進行decode()。write()寫入時,如果參數是unicode,則需要使用你希望寫入的編碼進行encode(),如果是其他編碼格式的str,則需要先用該str的編碼進行decode(),轉成unicode后再使用寫入的編碼進行encode()。如果直接將unicode作為參數傳入write()方法,Python將先使用源代碼文件聲明的字符編碼進行編碼然后寫入。

?
1
2
3
4
5
6
7
8
9
10
11
12
13
14
# coding: UTF-8
f = open('test.txt')
s = f.read()
f.close()
print type(s) # <type 'str'>
# 已知是GBK編碼,解碼成unicode
u = s.decode('GBK')
f = open('test.txt', 'w')
# 編碼成UTF-8編碼的str
s = u.encode('UTF-8')
f.write(s)
f.close()

另外,模塊codecs提供了一個open()方法,可以指定一個編碼打開文件,使用這個方法打開的文件讀取返回的將是unicode。寫入時,如果參數是unicode,則使用open()時指定的編碼進行編碼后寫入;如果是str,則先根據源代碼文件聲明的字符編碼,解碼成unicode后再進行前述操作。相對內置的open()來說,這個方法比較不容易在編碼上出現問題。

?
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
# coding: GBK
import codecs
f = codecs.open('test.txt', encoding='UTF-8')
u = f.read()
f.close()
print type(u) # <type 'unicode'>
f = codecs.open('test.txt', 'a', encoding='UTF-8')
# 寫入unicode
f.write(u)
# 寫入str,自動進行解碼編碼操作
# GBK編碼的str
s = '漢'
print repr(s) # '\xba\xba'
# 這里會先將GBK編碼的str解碼為unicode再編碼為UTF-8寫入
f.write(s)
f.close()

2.4. 與編碼相關的方法

sys/locale模塊中提供了一些獲取當前環境下的默認編碼的方法。

?
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
# coding:gbk
import sys
import locale
def p(f):
????print '%s.%s(): %s' % (f.__module__, f.__name__, f())
# 返回當前系統所使用的默認字符編碼
p(sys.getdefaultencoding)
# 返回用于轉換Unicode文件名至系統文件名所使用的編碼
p(sys.getfilesystemencoding)
# 獲取默認的區域設置并返回元祖(語言, 編碼)
p(locale.getdefaultlocale)
# 返回用戶設定的文本數據編碼
# 文檔提到this function only returns a guess
p(locale.getpreferredencoding)
# \xba\xba是'漢'的GBK編碼
# mbcs是不推薦使用的編碼,這里僅作測試表明為什么不應該用
print r"'\xba\xba'.decode('mbcs'):", repr('\xba\xba'.decode('mbcs'))
#在筆者的Windows上的結果(區域設置為中文(簡體, 中國))
#sys.getdefaultencoding(): gbk
#sys.getfilesystemencoding(): mbcs
#locale.getdefaultlocale(): ('zh_CN', 'cp936')
#locale.getpreferredencoding(): cp936
#'\xba\xba'.decode('mbcs'): u'\u6c49'

3.一些建議

3.1. 使用字符編碼聲明,并且同一工程中的所有源代碼文件使用相同的字符編碼聲明。

這點是一定要做到的。

3.2. 拋棄str,全部使用unicode。

按引號前先按一下u最初做起來確實很不習慣而且經常會忘記再跑回去補,但如果這么做可以減少90%的編碼問題。如果編碼困擾不嚴重,可以不參考此條。

3.3. 使用codecs.open()替代內置的open()。

如果編碼困擾不嚴重,可以不參考此條。

3.4. 絕對需要避免使用的字符編碼:MBCS/DBCS和UTF-16。

這里說的MBCS不是指GBK什么的都不能用,而是不要使用Python里名為'MBCS'的編碼,除非程序完全不移植。

Python中編碼'MBCS'與'DBCS'是同義詞,指當前Windows環境中MBCS指代的編碼。Linux的Python實現中沒有這種編碼,所以一旦移植到Linux一定會出現異常!另外,只要設定的Windows系統區域不同,MBCS指代的編碼也是不一樣的。分別設定不同的區域運行2.4小節中的代碼的結果:

?
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
#中文(簡體, 中國)
#sys.getdefaultencoding(): gbk
#sys.getfilesystemencoding(): mbcs
#locale.getdefaultlocale(): ('zh_CN', 'cp936')
#locale.getpreferredencoding(): cp936
#'\xba\xba'.decode('mbcs'): u'\u6c49'
#英語(美國)
#sys.getdefaultencoding(): UTF-8
#sys.getfilesystemencoding(): mbcs
#locale.getdefaultlocale(): ('zh_CN', 'cp1252')
#locale.getpreferredencoding(): cp1252
#'\xba\xba'.decode('mbcs'): u'\xba\xba'
#德語(德國)
#sys.getdefaultencoding(): gbk
#sys.getfilesystemencoding(): mbcs
#locale.getdefaultlocale(): ('zh_CN', 'cp1252')
#locale.getpreferredencoding(): cp1252
#'\xba\xba'.decode('mbcs'): u'\xba\xba'
#日語(日本)
#sys.getdefaultencoding(): gbk
#sys.getfilesystemencoding(): mbcs
#locale.getdefaultlocale(): ('zh_CN', 'cp932')
#locale.getpreferredencoding(): cp932
#'\xba\xba'.decode('mbcs'): u'\uff7a\uff7a'

可見,更改區域后,使用mbcs解碼得到了不正確的結果,所以,當我們需要使用'GBK'時,應該直接寫'GBK',不要寫成'MBCS'。

UTF-16同理,雖然絕大多數操作系統中'UTF-16'是'UTF-16-LE'的同義詞,但直接寫'UTF-16-LE'只是多寫3個字符而已,而萬一某個操作系統中'UTF-16'變成了'UTF-16-BE'的同義詞,就會有錯誤的結果。實際上,UTF-16用的相當少,但用到的時候還是需要注意。

轉載于:https://www.cnblogs.com/kungfupanda/p/4318743.html

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/news/279292.shtml
繁體地址,請注明出處:http://hk.pswp.cn/news/279292.shtml
英文地址,請注明出處:http://en.pswp.cn/news/279292.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

使用sql服務器發送賀卡_創建和發送免費電子賀卡的最佳網站

使用sql服務器發送賀卡With the holiday season upon us, it’s time to pull out the holiday card list and get writing. However, how would you like to save some money this year and also help save the environment? 隨著假期的到來&#xff0c;是時候抽出節日賀卡清…

職稱申報評審管理系統_《四川省職稱評審管理暫行辦法》出臺

我省將探索實行職稱評審電子證書&#xff0c;電子證書與紙質證書具有同等效力。12月29日&#xff0c;記者從省人社廳了解到&#xff0c;我省近日出臺《四川省職稱評審管理暫行辦法》&#xff0c;從職稱評審總體要求、評審主體、申報程序、組織實施、優化服務、強化監管等方面提…

WordCount--統計輸入文件的字符數、行數、單詞數(java)--初級功能

碼云地址&#xff1a; https://gitee.com/YuRenDaZ/WordCount 個人PSP表格&#xff1a; PSP2.1 PSP階段 預估耗時 &#xff08;分鐘&#xff09; 實際耗時 &#xff08;分鐘&#xff09; Planning 計劃 180 120 Estimate 估計這個任務需要多少時間 180 120 D…

網頁的驗證碼

1.首先可以寫一個產生隨機驗證碼的aspx文件&#xff0c;如下產生四位數字&#xff1a; private void Page_Load(object sender, System.EventArgs e) { this.CreateCheckCodeImage(GenerateCheckCode()); } private string GenerateCheckCode() { …

榮耀9igoogle模式_iGoogle個性化主頁的6種替代方法

榮耀9igoogle模式iGoogle has less than a year to go before it’s shut down for good on November 1, 2013. While Google seems to think that iGoogle isn’t necessary anymore, there are other services waiting to take its place. iGoogle距離其2013年11月1日永久關閉…

華為堡壘機_安恒信息成為“華為云優秀嚴選合作伙伴”,攜手保障“云上”資產安全訪問...

加快5G持續創新能力&#xff0c;為云計算行業注入新動能。近日&#xff0c;以“智者?同行?共贏”為主題的2020華為云ISV(嚴選)合作伙伴大會在杭州隆重舉行。上百位華為云合作伙伴、行業大咖等專業人士齊聚一堂&#xff0c;探討云計算產業熱門話題。作為華為云重要的生態合作伙…

zip4j實現多線程壓縮

使用的jar包&#xff1a;zip4j_1.3.2.jar 基本功能&#xff1a; 針對ZIP壓縮文件創建、添加、分卷、更新和移除文件 (讀寫有密碼保護的Zip文件) (支持AES 128/256算法加密) (支持標準Zip算法加密) (支持zip64格式) (支持Store(僅打包&#xff0c;默認不壓縮&#xff0c;…

非三星手機無法登錄三星賬號_如何解決所有三星手機的煩惱

非三星手機無法登錄三星賬號Samsung is the biggest manufacturer of Android phones in the world, but that doesn’t mean these handsets are perfect out of the box. In fact, most of these phones have several annoyances initially—here’s how to fix many of thes…

設置單元格填充方式_單元格的選擇及設置單元格格式

數據輸入完畢&#xff0c;接下來可以設置字體、對齊方式、添加邊框和底紋等方式設置單元格格式&#xff0c;從而美化工作表。要對單元格進行設置&#xff0c;首先要選中單元格。選擇單元格選擇單元格是指在工作表中確定活動單元格以便在單元格中進行輸入、修改、設置和刪除等操…

Recover Binary Search Tree

Two elements of a binary search tree (BST) are swapped by mistake. Recover the tree without changing its structure. Note: A solution using O(n) space is pretty straight forward. Could you devise a constant space solution? 要求找到BST中放錯位置的兩個節點. …

springboot三種過濾功能的使用與比較

若要實現對請求的過濾&#xff0c;有三種方式可供選擇&#xff1a;filter、interceptort和aop。本文主要討論三種攔截器的使用場景與使用方式。 下文中的舉例功能是計算每個請求的從開始到結束的時間&#xff0c;例子來源是慕課網。 一、filter 特點&#xff1a;可以獲取原始的…

后綴的形容詞_構詞法(18)構成形容詞的常見后綴 3

即時練習一、按要求改寫下列單詞。1. Japan →___________ adj. 日本(人)的2. Canton →_________ adj. 廣東(人)的3. Vietnam →__________ adj. 越南(人)的4. Europe →__________ adj. 歐洲(人)的5. India → ________ adj. 印度(人)的6. Africa →_______ adj. 非洲(人)的7…

CentOS 桌面啟動無登錄界面

最近VMWare下搞了2個CentOS 32bit虛擬機, 裝了些軟件之后&#xff0c;都遇到開機無法顯示登錄界面&#xff0c; 僅能看見桌面背景圖的情況。 以下是我搜索很久匯總的方法。 嘗試按 ctrl alt F3(快捷鍵可能有所不同), 由桌面模式進入命令行模式。 直接 startx 報錯&#xf…

批量刪除推文_如何搜索(和刪除)您的舊推文

批量刪除推文“The internet never forgets” is an aphorism that isn’t entirely true, but it’s worth thinking about whenever you post to social media. If you think your Twitter profile needs a bit of a scrub, here’s how to search and delete those old twee…

[USACO13JAN] Cow Lineup (單調隊列,尺取法)

題目鏈接 Solution 尺取法板子,算是復習一波. 題中說最多刪除 \(k\) 種,那么其實就是找一個顏色種類最多為 \(k1\) 的區間; 統計一下其中最多的顏色出現次數. 然后直接尺取法,然后每次對于 \(col[r]\) 進行統計,時間復雜度 \(O(n)\) . Code #include<bits/stdc.h> using …

智能記憶功能nest_如何設置和安裝Nest Protect智能煙霧報警器

智能記憶功能nestIf you want to add a bit more convenience and safety to your home’s smoke alarm setup, the Nest Protect comes with a handful of great features to make that a reality. Here’s how to set it up and what all you can do with it. 如果您想為您的…

網格自適應_ANSYS 非線性自適應(NLAD)網格劃分及應用舉例

文章來源&#xff1a;安世亞太官方訂閱號&#xff08;搜索&#xff1a;Peraglobal&#xff09;在復雜的結構設計分析中&#xff0c;通常很難確定在高應力區域中是否生成適當的細化網格。在做非線性大應變分析仿真時&#xff0c;可能由于單元變形過大&#xff0c;導致網格畸變&a…

js繼承優化

在看《js設計模式》中&#xff0c;作者提到了js中的兩種繼承方式&#xff1a;類繼承 或 原型繼承&#xff0c;或許是本人才疏學淺&#xff0c;竟發現一些問題。 一、類繼承 思路&#xff1a;作者的思路是使用基于類來繼承&#xff0c;并且做了一個extend函數&#xff0c;在第一…

python---[列表]lsit

內置數據結構&#xff08;變量類型&#xff09; -list -set -dict -tuple -list&#xff08;列表&#xff09; -一組又順序的數據組合 -創建列表 -空列表 list1 []        print(type(list1))        print(list1)        list2 [100]       …

喚醒計算機運行此任務_如何停止Windows 8喚醒計算機以運行維護

喚醒計算機運行此任務Windows 8 comes with a new hybrid boot system, this means that your PC is never really off. It also means that Windows has the permission to wake your PC as it needs. Here’s how to stop it from waking up your PC to do maintenance tasks…