char 不是 Java 中的 2 字節（16 位）嗎？為什么用 UTF-8 編碼寫入時，一個中文要占 3 個字節？

char 不是 Java 中的 2 字節（16 位）嗎？
為什么用 UTF-8 編碼寫入時，一個中文要占 3 個字節？

所以你在內存中看到的：

char[] chars = {'H', 'i', '你', '好'};

這個 char[] 在內存中確實占了 8 字節（4 × 2 字節）。

中文字符“你”和“好”的 Unicode 編碼是：

字符	Unicode	UTF-8 編碼（十六進制）	UTF-8 字節數
你	U+4F60	`E4 BD A0`	3 字節
好	U+597D	`E5 A5 BD`	3 字節

編碼位置	數據內容	編碼方式	字節數
Java 內存	char[]	UTF-16，每個 char 占 2 字節	8 字節（H i 你好）
寫入文件	Writer → UTF-8 編碼	ASCII 占 1 字節，中文占 3 字節	總共 8 字節（1+1+3+3）

你寫入時用了 Writer + UTF-8 編碼，這是“把 UTF-16 字符轉換為 UTF-8 字節流”的過程。

Java char[] (UTF-16):   [H][i][你][好]
字節數（內存中）:          2  2   2   2  = 8字節UTF-8 編碼寫入文件:      H→1字節  i→1字節  你→3字節  好→3字節 = 8字節

你看到的文件占 8 字節，剛好是：

問題	回答
Java 的 `char` 是 2 字節嗎？	? 是的，UTF-16 編碼單元
UTF-8 中一個中文是幾字節？	通常是 3 字節（U+0800 ~ U+FFFF 范圍）
為什么 UTF-8 比 `char` 更長？	因為 UTF-8 是變長編碼，針對不同字符長度不同
最終文件內容是字節編碼還是字符？	是 UTF-8 編碼的字節數據，不是 Java 的 `char` 直接寫入的

本文來自互聯網用戶投稿，該文觀點僅代表作者本人，不代表本站立場。本站僅提供信息存儲空間服務，不擁有所有權，不承擔相關法律責任。
如若轉載，請注明出處：http://www.pswp.cn/diannao/89826.shtml
繁體地址，請注明出處：http://hk.pswp.cn/diannao/89826.shtml
英文地址，請注明出處：http://en.pswp.cn/diannao/89826.shtml

如若內容造成侵權/違法違規/事實不符，請聯系多彩編程網進行投訴反饋email:809451989@qq.com，一經查實，立即刪除！