其實剛剛寫過一整篇Python編碼問題的解決方案,由于JSON又是一種特殊案例(與庫相關,與語言本身無關)所以就單獨提出來說。
我們來看一個從網上獲取json并又存到本地文件的例子
import requests,json
r = requests.get('https://api.github.com/repos/solomonxie/\
solomonxie.github.io/issues/25/comments')
# 獲取到我的github中某條issue的所有評論,形式為
comments = json.loads( r.content )
# 取某一條評論查看內容(中文)
cc = comments[0]['body'][0:10] # 取出的內容是'## 配置:先從配置'
然后來測試下變量cc:
image
好,到這里先停一下!
JSON的讀取到目前為止,都是正常的:JSON Object對象給出的值都是unicode,沒有被莫名轉義,也沒有報錯誤。
但是,unicode格式,意味著它和str格式不兼容!
這時,害羞的大姑娘Unicode剛出爐,你不能在這個時候讓它和Str操作在一起!
報錯也往往就在這種疏于防備的時候!
比如你看:
image
上面打印了三條Unicode和Str的結合,
前兩條分別是以Str格式的結合,以Unicode格式的結合。
但是第三條,把兩個不同格式的字符串結合,就出錯了。
對不起,這里不是Javascript,變量不可以任意交合。Python對變量和編碼都是極其謹慎的。
所以明白了這點,我們再繼續。
上面獲得了JSON Object對象,那么再來試試將JSON對象整體存到文本文件中。
如果要存到本地文件,那么就必須把Object對象轉換為Str格式的字符串。
json庫自帶.dumps()函數可以進行轉化。
但是這里問題出現了!我們來小試一下:
image
竟然連print大法都不能把json.dumps()返回的內容正確打印出來。經過各種測試和查看官網對于此函數的文檔,發現:
原來json.dumps()是默認所有非ascii碼強制轉化為代號(而非漢字)的,于repr()效果等同!
官方文檔里有說明,json.dumps()里面有個ensure_ascii參數,默認為True。
意思就是默認把所有非ascii字碼用\強制轉化。所以,為了關閉這個功能,我們必須把它設為False.
下面是個小測試:
image
這樣一來JSON在Python里的編碼問題就解決了:須用json.dumps(obj, ensure_ascii=False)來轉化為字符串
下面是完整的代碼測試:
# @網絡資源到本地存儲真實測試
import requests,json
r = requests.get('https://api.github.com/repos/solomonxie/solomonxie.github.io/issues/25/comments')
# 獲取到我的github中某條issue的所有評論,形式為
comments = json.loads( r.content )
outgoing = json.dumps( comments, ensure_ascii=False )
with open('test.txt', 'w') as f:
f.write(outgoing.encode('utf-8'))
with open('test.txt', 'r') as f:
read = f.read()
print read[0:20], type(read)
來看結果:
image
大功告成!