ASC-II碼:英文1個字節(8 byte),不支持中文;
高大上的中國,擴展出自己的gbk、gb2312、gb2318等字符編碼。?
由于各個國家都有自己的編碼,于是就需要統一的編碼形式用于國際流傳,防止亂碼,就有了萬國碼;
萬國碼:unicode(默認無論中文還是英文都是至少占用2個字節),為了解決占用字節變多,占用空間增倍的情況,又衍生了擴展集utf-8;
UTF-8:原有的ASC-II碼中內容仍用1個字節,歐洲國家的字符用2個字節,漢字等其他的字符用3個字節
?
?
decode: 解碼到unicode,encode: 將unicode編碼到其他格式(如,utf-8,gbk等)
日常中如果我們想要讀取其他國家的代碼時,先解碼(decode)為萬國碼,再編碼(encode)為我們適用的編碼形式讀取;
比如:GBK到uff-8,先將GBK(decode)到 unicode,再(encode)到utf-8;
?