分類:?算法?cpp2012-03-10 16:01?7120人閱讀?評論(2)?收藏?舉報
null生活c
對于只包含中文和英文的文本中判斷編碼方式是非常簡單的,中文的編碼方式最常用的是GBK,字符集更大的如GBK向下兼容GB2312,其中包含的的很多一部分字符是我們在日常生活中用不到的,因此在實際中我們一般只需要區分GB2312和UTF8編碼。這里我只是提供一種可行的方法,如果判斷GBK也可以采用類似的方式首先分析一下漢字在GB2312中的編碼方式,gb2312規則漢字采用雙字節編碼其中第一字節161~247,第二字節161~254,其中含有邊界條件。而utf8的編碼方式可以看如下表示:
- <span?style="font-family:Arial,?Verdana,?sans-serif;"><span?style="white-space:?normal;">??
- </span></span>??
代碼范圍 十六進制 | 標量值(scalar value) 二進制 | UTF-8 二進制/十六進制 | 注釋 |
---|---|---|---|
000000 - 00007F 128個代碼 | 00000000 00000000 0zzzzzzz | 0zzzzzzz(00-7F) | ASCII字符范圍,字節由零開始 |
七個z | 七個z | ||
000080 - 0007FF 1920個代碼 | 00000000 00000yyy yyzzzzzz | 110yyyyy(C0-DF) 10zzzzzz(80-BF) | 第一個字節由110開始,接著的字節由10開始 |
三個y;二個y;六個z | 五個y;六個z | ||
000800 - 00D7FF 00E000 - 00FFFF 61440個代碼?[Note 1] | 00000000 xxxxyyyy yyzzzzzz | 1110xxxx(E0-EF) 10yyyyyy 10zzzzzz | 第一個字節由1110開始,接著的字節由10開始 |
四個x;四個y;二個y;六個z | 四個x;六個y;六個z | ||
010000 - 10FFFF 1048576個代碼 | 000wwwxx xxxxyyyy yyzzzzzz | 11110www(F0-F7) 10xxxxxx 10yyyyyy 10zzzzzz | 將由11110開始,接著的字節由10開始 |
- unsigned?int?countGBK(const?char?*?str)??
- {??
- ????assert(str?!=?NULL);??
- ????unsigned?int?len?=?(unsigned?int)strlen?(str);??
- ????unsigned?int?counter?=?0;??
- ????unsigned?char?head?=?0x80;??
- ????unsigned?char?firstChar,?secondChar;??
- ??
- ????for?(unsigned?int?i?=?0;?i?<?len?-?1;?++i)??
- ????{??
- ????????firstChar?=?(unsigned?char)str[i];??
- ????????if?(!(firstChar?&?head))continue;??
- ????????secondChar?=?(unsigned?char)str[i];??
- ????????if?(firstChar?>=?161?&&?firstChar?<=?247?&&?secondChar>=161?&&?secondChar?<=?254)??
- ????????{??
- ????????????counter+=?2;??
- ????????????++i;??
- ????????}??
- ????}??
- ????return?counter;??
- }??
- ??
- unsigned?int?countUTF8(const?char?*?str)??
- {??
- ????assert(str?!=?NULL);??
- ????unsigned?int?len?=?(unsigned?int)strlen?(str);??
- ????unsigned?int?counter?=?0;??
- ????unsigned?char?head?=?0x80;??
- ????unsigned?char?firstChar;??
- ????for?(unsigned?int?i?=?0;?i?<?len;?++i)??
- ????{??
- ????????firstChar?=?(unsigned?char)str[i];??
- ????????if?(!(firstChar?&?head))continue;??
- ????????unsigned?char?tmpHead?=?head;??
- ????????unsigned?int?wordLen?=?0?,?tPos?=?0;??
- ????????while?(firstChar?&?tmpHead)??
- ????????{??
- ????????????++?wordLen;??
- ????????????tmpHead?>>=?1;??
- ????????}??
- ????????if?(wordLen?<=?1)continue;?//utf8最小長度為2??
- ????????wordLen?--;??
- ????????if?(wordLen?+?i?>=?len)break;??
- ????????for?(tPos?=?1;?tPos?<=?wordLen;?++tPos)??
- ????????{??
- ????????????unsigned?char?secondChar?=?(unsigned?char)str[i?+?tPos];??
- ????????????if?(!(secondChar?&?head))break;??
- ????????}??
- ????????if?(tPos?>?wordLen)??
- ????????{??
- ????????????counter?+=?wordLen?+?1;??
- ????????????i?+=?wordLen;??
- ????????}??
- ????}??
- ????return?counter;??
- }??
- ??
- bool?beUtf8(const?char?*str)??
- {??
- ????<span?style="white-space:pre">??</span>unsigned?int?iGBK?=?countGBK(str);??
- ????unsigned?int?iUTF8=?countUTF8(str);??
- ????if?(iUTF8?>?iGBK)return?true;??
- ????return?false;??
- }?