qt5的中文亂碼問題，QString、QStringLiteral 為 UTF-16 編碼

qt5的中文亂碼問題一直沒有很明確的處理方案。

今天處理進程間通信時，也遇到了qt5亂碼問題，一邊是設置的GBK，一邊設置的是UTF8，單向通信約定采用UTF8。
發送端保證發的是UTF8字符串，因為UTF8在網絡數據包中沒有字節序問題。
問題出在發送端，字符串的原始編碼不明確，轉換方案一直靠猜，咨詢多個AI助手，也都是胡亂猜測，沒有一個能解決，沒有一個能給出確定解釋。類似于，在一個陌生環境，自己不知道自己在哪。

轉機出現在，某個AI突然說了兩句話：
QString內部是UTF-16 編碼。
QStringLiteral可以確保字符串是UTF-16 編碼。

這個關鍵信息，類似地圖中的關鍵參考點，從確定的參考點出發，每一步都確定轉換出來的數據是什么編碼，不就可以解決亂碼問題了嗎？

于是，解決方案就明確了：
發送端：

NetSendFunction(QString message=QStringLiteral("中文法文..."));
QByteArray data = message.toUtf8();

data確定是UTF8編碼，作為網絡數據包的一部分發送出去。

接收端：

QString message = QString::fromUtf8(data);

QString QStringLiteral 源碼

為了預防AI胡說誤導，稍微調查一下qt源碼：

typedef QTypedArrayData<ushort> QStringData; //數組中存的是ushort是關鍵點
class Q_CORE_EXPORT QString {
public:typedef QStringData Data;...    Data *d;//實際存儲str的地方

#define QT_UNICODE_LITERAL(str) u"" str // 關鍵點在u這個C++前綴
#define QStringLiteral(str) \([]() noexcept -> QString { \enum { Size = sizeof(QT_UNICODE_LITERAL(str))/2 - 1 }; \static const QStaticStringData<Size> qstring_literal = { \Q_STATIC_STRING_DATA_HEADER_INITIALIZER(Size), \QT_UNICODE_LITERAL(str) }; \QStringDataPtr holder = { qstring_literal.data_ptr() }; \const QString qstring_literal_temp(holder); \return qstring_literal_temp; \}()) \/**/

C++標準規定u前綴生成UTF-16，確保跨編譯器的一致性。 所以核心是c++規范起了作用，各種編譯器實現必須滿足這一結果。
這種前綴類似運算符號。用戶也可以自定義這種前綴，它會觸發函數調用。

其它細節：
QStringLiteral，這個宏用于在編譯時創建一個QString對象，以提高運行時效率。
使用立即調用的lambda表達式，在編譯時生成靜態的QStaticStringData實例qstring_literal 。
qstring_literal_temp通過持有QStringDataPtr的臨時QString對象，直接引用靜態數據，無需動態內存分配或拷貝，提升效率。

補充deepseek給出的參考

在 Qt5 中，QString 的內部編碼始終是 UTF-16。這是 Qt 框架設計的核心特性之一，目的是統一處理 Unicode 字符。以下是詳細解釋和驗證方法：

1. QString 的內部編碼是 UTF-16

UTF-16 的特性：
- 每個基本字符由 16 位（即一個 QChar）表示。
- 對于 Unicode 中超出 基本多語言平面（BMP, U+0000 到 U+FFFF） 的字符（如 Emoji 或某些漢字），Qt 會使用 代理對（Surrogate Pairs），即兩個 QChar 表示一個字符。
Qt 官方文檔的明確說明：

“QString stores a string of 16-bit QChars, where each QChar corresponds to one Unicode 4.0 character.”
（摘自 Qt 5.15 文檔）

2. 為什么選擇 UTF-16？

跨平臺一致性：UTF-16 能夠覆蓋絕大多數現代語言的字符，同時平衡內存占用和性能。
與操作系統 API 兼容：Windows 原生 API 使用 UTF-16，Qt 選擇此編碼可以高效與之交互，避免轉換開銷。

3. 如何驗證 QString 的編碼？

方法 1：觀察字符存儲方式

通過檢查 QString 中字符的存儲長度和代理對的存在，可以間接驗證 UTF-16 編碼。例如：

QString str = u"𠮷"; // 這是一個超出 BMP 的字符（U+20BB7）
qDebug() << str.length(); // 輸出 2，因為使用了代理對

方法 2：查看內存布局

通過調試器查看 QString 的內存，可以看到每個字符占 16 位：

QString str = "Hello";
const QChar *data = str.data();
// 在調試器中查看 data 數組，每個元素為 16 位

方法 3：轉換到其他編碼

通過 toUtf8()、toLatin1() 等方法的轉換行為，可以間接確認內部編碼：

QString str = u"?"; // Unicode 字符 U+00C4
qDebug() << str.toUtf8();   // 輸出 UTF-8 編碼的字節序列：0xC3 0x84
qDebug() << str.toLatin1(); // 輸出 Latin-1 編碼的字節：0xC4

4. 注意事項

與源碼編碼無關：QString 的內部編碼是固定的 UTF-16，與源代碼文件編碼（如 UTF-8、GBK）無關。例如：
```
// 無論源碼是 UTF-8 還是 GBK，以下字符串都會被正確轉換為 UTF-16
QString str = "你好";
```
轉換函數的用途：toUtf8()、fromLocal8Bit() 等方法用于與外部數據（如文件、網絡）交互時進行編碼轉換，不影響 QString 內部存儲。

5. 總結

QString 內部編碼固定為 UTF-16，開發者無需動態判斷。
若需要處理其他編碼的數據（如 UTF-8、GBK），需通過轉換方法（如 QString::fromUtf8()）與 QString 交互。
對于超出 BMP 的字符，Qt 會自動使用代理對，確保兼容性。

參考文檔：QString Class | Unicode in Qt

本文來自互聯網用戶投稿，該文觀點僅代表作者本人，不代表本站立場。本站僅提供信息存儲空間服務，不擁有所有權，不承擔相關法律責任。
如若轉載，請注明出處：http://www.pswp.cn/news/896665.shtml
繁體地址，請注明出處：http://hk.pswp.cn/news/896665.shtml
英文地址，請注明出處：http://en.pswp.cn/news/896665.shtml

如若內容造成侵權/違法違規/事實不符，請聯系多彩編程網進行投訴反饋email:809451989@qq.com，一經查實，立即刪除！