[轉載] python中字符串編碼形式及其所占字節

參考鏈接: Python中的字節對象與字符串

1.常見字符串編碼錯誤?

在使用Python讀文件時經常遇到編碼問題引起的錯誤,比如:?

UnicodeDecodeError: 'gbk' codec can't decode byte 0x80 in position 30: illegal multibyte sequence?

遇到這種異常時可以通過讀文件時規定編碼方式來解決,如下:?

with open('zhengfu.txt','r',encoding='UTF-8') as read_zhengfu:?

如果文件中還包含其他非UTF-8編碼的字符,或者無關的特殊字符,可以再加入一個參數,如下:?

with open('zhengfu.txt','r',encoding='UTF-8',errors='ignore') as read_zhengfu:?

有時讀文件時還會遇到一種問題就是第一行數據的開頭多了一串‘'\ufeff’字符。比如:?

?

如果用print(list[0])是看不到這個字符的。對這個沒有研究過, 如果要去掉這串字符的話,可以使用‘utf-8-sig’這種編碼方式:?

with open('user_dict_2.txt','r',encoding='utf-8-sig') as read_dict:?

但是我在寫入文件時設置為‘utf-8-sig’格式時不起作用,寫入的文件中還是有這個字符。?

另外,在對字符串進行匹配的時候,'\ufeff’會影響字符串的匹配結果。?

?

2.字符串編碼?

關于計算機內部如何表示字符串,為何又要創造這么多種編碼方式,推薦閱讀 https://www.cnblogs.com/hhwu/p/9529942.html 這篇博客里作者講的很明白,這里主要是想匯總介紹Python中的字符串函數。?

2.1 chr()函數和ord()函數?

chr()函數是將一個整數返回一個對應的字符,ord()函數則相反,其返回一個字符的數值表示(返回的是Unicode值的十進制表示)。在Python3.6的版本中,chr()中整數的范圍不再是0到255,擴大到了1114111,大于改值時,報ValueError錯誤。而ord()函數中只能接受單字符串作為其輸入,否則會報TypeError錯誤。?

print(chr(65)) #輸出'A'

print(ord('A')) #輸出65?

2.2 Unicode編碼?

雖然Python 3的內存中Unicode來保存字符串,但為了節省內存,Python3內部使用3種方式存儲Unicode字符。具體分為以下三種:?

Latin-1一個字符占一個字節。比如ASCII碼值UCS-2一個字符占兩個字節。常見的中文都占用2個字節UCS-4一個字符占四個字節。比較偏僻的中文還有emoj表情通常占用4個字節。

python中提供了內置函數來查看每個字符串對象的編碼類型。如果一個字符串的所有字符都能用ASCII碼來表示,那么該字符串使用Latin-1。如果字符串中出現了中文,則采用UCS-2編碼即可。如果字符串中有一些生僻字或者emoj表情的話,則必須使用UCS-4編碼。注意在Python中,一個字符串中的所有字符只能采用一種編碼方式,不能混用。因為一旦混用,那么字符串中每個字符所占的字節數必定不同,那么字符串將不能使用下標進行快速直接讀取。下面來具體看看字符串具體在內存中所占用的字節數。?

字符串的長度和該字符串所占的字節數不相同。字符串的長度可以直接通過len()f方法來求,而字符串在內存中實際所占的字節數需要通過getsizeof()函數來計算。?

import sys

#返回字符串所占字節數,返回78

print(sys.getsizeof('你好'))

#返回字符串長度,長度為2

print(len("你好"))?

從以下的實驗結果可以發現,一個空字符串在內存中就占了49個字節的內存。?

?

Python內存中的數據,不管是int型還是字符串,都會額外占用一些內存空間保存一些信息,這些信息保存了字符串的一些基礎信息,并且能夠決定字符串所能進行的操作。Python一般會為字符串分配49到80個字節的額外空間。?

下面這段代碼分別展示了字符‘a’在三種不用的Unicode編碼中所占的字節數。?

import sys

#latin-1編碼時'a'所占的字節數,其結果為:1

print(sys.getsizeof('ab')-sys.getsizeof('b'))

#ucs-2編碼時'a'所占的字節數,其結果為:2

print(sys.getsizeof('a你好')-sys.getsizeof('你好'))

#ucs-4編碼時'a'所占的字節數,其結果為:4

print(sys.getsizeof('a?')-sys.getsizeof('?'))

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/news/540557.shtml
繁體地址,請注明出處:http://hk.pswp.cn/news/540557.shtml
英文地址,請注明出處:http://en.pswp.cn/news/540557.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

[AtCoder-ARC073F]Many Moves

題目大意:   有一排n個格子和2枚硬幣。   現在有q次任務,每一次要你把其中一枚硬幣移到x的位置上,移動1格的代價是1。   兩枚硬幣不能同時移動,任務必須按次序完成。   現在告訴你兩枚硬幣初始狀態所在的位置a和b&#xf…

ScalavsKotlin

Is Scala better that Kotlin? No..., Is Kotlin better than Scala? No... Scala比Kotlin更好嗎? 不...,Kotlin勝過Scala嗎? 沒有... Both programming languages have their own profits and are for a specific set of development. It…

工業智能相機與基于PC的機器視覺的區別比較

隨著科技的日漸成熟,機器視覺得到了飛速發展。由于嵌入式技術的發展,近幾年智能相機性能顯著提高,越來越多必須依賴于PC處理的應用開始向智能相機平臺傾斜。低成本、高可靠性及易于安裝維護等優勢,使得機器視覺在制造業上的規模性應用越來越普…

[轉載] python skimage在圖像處理中的用法

參考鏈接: 在Python中打印單變量和多變量 基于python腳本語言開發的數字圖片處理包,比如PIL,Pillow, opencv, scikit-image等。 PIL和Pillow只提供最基礎的數字圖像處理,功能有限;opencv實際上是一個c庫,只是提供了py…

scala元組 數組_Scala中的數組

scala元組 數組Scala中的數組 (Arrays in Scala) An array is a linear data structure with a fixed number of elements. It is a collection that stores a fixed number Arrays in Scalf elements of the same datatype. In Scala, an array is 0 indexed, i.e. the first …

OpenStack —— DevStack一鍵自動化安裝

一、DevStack介紹Devstack目前是支持Ubuntu16.04和CentOS 7,而且Devstack官方建議使用Ubuntu16.04,所以我們使用Ubuntu 16.04進行安裝。默認無論是Devstack和OpenStack,都是采用Master的代碼進行安裝,這樣經常會出現,今…

[轉載] Python學習筆記——運維和Shell

參考鏈接: 在C / C,Python,PHP和Java中交換兩個變量 目錄 什么是運維 運維第一工具-shell編程 shell歷史 執行腳本 基本語法 Shell腳本語法 條件測試:test [ if/then/elif/else/fi case/esac for/do/done …

scala java混合_Scala特性混合

scala java混合Scala | 特性混合 (Scala | Trait Mixins ) In Scala, the number of traits can be extended using a class or an abstract class. This is known as Trait Mixins. For extending, only traits, the blend of traits, class or abstract class are valid. If …

Scala鑄造

Scala中的類型 (Types in Scala) Type also know as data type tells the compiler about the type of data that is used by the programmer. For example, if we initialize a value or variable as an integer the compiler will free up 4 bytes of memory space and it wi…

/ 卡路里_最大卡路里

/ 卡路里Problem statement: 問題陳述: Shivang is very foodie but he has a diet plan. He has an array of elements indicating the calorie of food he can consume on that day. In his diet plan, he can’t eat on for three consecutive days. But since …

[轉載] Python類中的私有變量和公有變量

參考鏈接: Python中的私有變量 我們這里就直奔主題,不做基礎鋪墊,默認你有一些Python類的基礎,大家在看這篇博客的時候,如果基礎知識忘了,可以去菜鳥教程 從一個簡單的類開始 class A(): #定義一…

OpenCV探索之路(二十五):制作簡易的圖像標注小工具

搞圖像深度學習的童鞋一定碰過圖像數據標注的東西,當我們訓練網絡時需要訓練集數據,但在網上又沒有找到自己想要的數據集,這時候就考慮自己制作自己的數據集了,這時就需要對圖像進行標注。圖像標注是件很枯燥又很費人力物力的一件…

固件的完整形式是什么?

FW:前進 (FW: Forward) FW is an abbreviation of "Forward". FW是“ Forward”的縮寫 。 It is an expression, which is commonly used in Gmail or messaging platform. It is also written as FWD or Fwd or Fw. It shows that the email has been s…

[轉載] python __slots__ 詳解(上篇)

參考鏈接: Python的__name __(特殊變量) python中的new-style class要求繼承Python中的一個內建類型, 一般繼承object,也可以繼承list或者dict等其他的內建類型。 在python新式類中,可以定義一個變量__slots__,它的作…

委托BegionInvoke和窗體BegionInvoke

委托BegionInvoke是指通過委托方法執行多線程任務,例如: //定義委托成員變量 delegate void dg_DeleAirport(); //指定委托函數 dg_DeleAirport dga AirportBLL.DeleteHistoryTransAirport; //通過BeginInvoke以異步線程方式執行委托函數,可…

圖論 弦_混亂的弦

圖論 弦Problem statement: 問題陳述: You are provided an input string S and the string "includehelp". You need to figure out all possible subsequences "includehelp" in the string S? Find out the number of ways in which the s…

[轉載] Python列表操作

參考鏈接: Python中的基本運算符 Python列表: 序列是Python中最基本的數據結構。序列中的每個元素都分配一個數字 - 它的位置,或索引,第一個索引是0,第二個索引是1,依此類推; Python有6個序列的…

「原創」從馬云、馬化騰、李彥宏的對話,看出三人智慧差在哪里?

在今年中國IT領袖峰會上,馬云、馬化騰、李彥宏第一次單獨合影,同框畫面可以說很難得了。BAT關心的走勢一直是同行們競相捕捉的熱點,所以三位大Boss在這次大會上關于人工智能的見解,也受到廣泛關注與多方解讀。馬云認為機器比人聰明…

python 注釋含注釋_Python注釋

python 注釋含注釋Python注釋 (Python comments) Comments in Python are used to improve the readability of the code. It is useful information given by the programmer in source code for a better understanding of code and logic that they have used to solve the …