java字符串排序_對字符串排序持一種寬容的心態

98d33d993d2eeb191291ffd329ada2a3.gif

78612fa16a44690aa5c2d8baab6da4af.gif

9974cbea87a848fda5105cd5bb977b5d.png

在Java中一涉及中文處理就會冒出很多問題來,其中排序也是一個讓人頭疼的課題,我們來看下面的代碼:

bf0aabc21cda775cb6494fc51481e3e6.png

上面的代碼定義一個數組,然后進行升序排序,我們期望的結果是按照拼音升序排列,即為李四、王五、張三,但是結果卻不是這樣的:

a813611998b57fe1efa8c9603417f2df.png

這是按照什么排序的呀,非常混亂!我們知道Arrays工具類的默認排序是通過數組元素的compareTo方法來進行比較的,那我們來看String類的compareTo的主要實現:

49b9e742bad793d4d60a3fced74e899a.png

上面的代碼先取得字符串的字符數組,然后一個一個地比較大小,注意這里是字符比較(減號操作符),也就是UNICODE碼值的比較,查一下UNICODE代碼表,“張”的碼值是5F20,而“李”是674E,這樣一看,“張”排在“李”的前面也就很正確了—但這明顯與我們的意圖沖突了。這一點在JDK文檔中也有說明:對于非英文的String排序可能會出現不準確的情況。那該如何解決這個問題呢?Java推薦使用

Collator類進行排序,那好,我們把代碼修改一下:

5249bc4f42560e73812147139b4f45a1.png

輸出結果如下:

1c33b009601d43f75644aa9b3c7c3531.png

這確實是我們期望的結果,應該舉杯慶賀了吧!但是且慢,中國的漢字博大精深,Java是否都能精確的排序呢?最主要的一點是漢字中有象形文字,音形分離,是不是每個漢字都能按照拼音的順序排列好呢?我們寫一個復雜的漢字來看看:

1750eb729bdf12cbf7d436126053fdad.png

三個牛“犇”讀bēn,三個金“鑫”讀xīn,這兩個字經常出現在飯店和商店的名稱上,我們來看排序的輸出結果:

9adcd51348a526f454ed5b585e0153d0.png

輸出結果又亂了!不要責怪Java,它已經盡量為我們考慮了,只是因為我們的漢字文化太博大精深了,要做好這個排序確實有點難為它。更深層次的原因是Java使用的是UNICODE編碼,而中文UNICODE字符集是來源于GB18030的,GB18030又是從GB2312發展起來,GB2312是一個包含了7000多個字符的字符集,它是按照拼音排序,并且是連續的,之后的GBK、GB18030都是在其基礎上擴充出來的,所以要讓它們完整排序也就難上加難了。

如果是排序對象是經常使用的漢字,使用Collator類排序完全可以滿足我們的要求,畢竟GB2312已經包含了大部分的漢字,如果需要嚴格排序,則要使用一些開源項目來自己實現了,比如pinyin4j可以把漢字轉換為拼音,然后我們自己來實現排序算法,不過此時你也會發現要考慮諸如算法、同音字、多音字等眾多問題。

本文參考自:《編寫高質量代碼:改善java程序的151個建議》

作者:秦小波

聲明:本文只供學習使用,未涉及任何商業利益,如有侵權,立刪。

支持作者

贊賞就不用啦,生活都不易,右下角的“在看/贊”點一下,如果感覺文章不錯,記得分享到朋友圈讓更多人知道!

f704391d281c2924297d8c588e1e5841.png

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/news/259887.shtml
繁體地址,請注明出處:http://hk.pswp.cn/news/259887.shtml
英文地址,請注明出處:http://en.pswp.cn/news/259887.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

rails開發隨手記-0

helper默認是只在view中可用的,如果在controller中也要使用,要在ApplicationController中 include 如果model中如果有叫做type的列的話,會觸發rails的Single Table Inheritance ,放棄它吧,不好用,還是安心使…

nagios 監控配置介紹(二)

#配置服務端監控客戶端[rootnagios etc]# cd objects/[rootnagios objects]# vi hosts.cfg# Define a host for the local machinedefine host{use linux-serverhost_name 1.3-sambaalias 1.3-sambaaddress …

spoj SUBLEX (Lexicographical Substring Search) RE的歡迎來看看

SPOJ.com - Problem SUBLEX 這么裸的一個SAM,放在了死破OJ上面就是個坑。 注意用SAM做的時候輸出要用一個數組存下來,然后再puts,不然一個一個字符輸出會更慢。 還有一個就是不要多數據輸入,估計最后多了幾個沒用的數字&#xff0…

mt4雙線macd_3年內從虧損90多萬到獲利近760萬,我只堅持我的:60分鐘MACD雙回拉戰法!附選股公式...

MACD指標被普遍認為是最經典實用的技術指標之一。其實并不是因為MACD有多么精妙的算法,而是MACD遵循了最基本的“均線指導原則”,形象的將經典雙均線系統換了一種更加直觀的表達方式。在MT4中,默認應用的是單線MACD指標,而在證券市…

計算機專業書籍速讀方法,格式你玩的轉?速讀5分鐘就懂

小編又接到了新問題,有小伙伴說自己64GB的U盤在電腦里格式化只能選ExFAT或者NTFS,不能選擇FAT32,求小編解答,小編正好借著這個機會,說說現在電腦格式問題。如果你懶得讀,↓↓↓最后一段有答案,如…

java項目打jar包

http://www.cnblogs.com/tianguook/archive/2012/03/14/2396335.html java項目打jar包分為2種情況: 一、java項目沒有導入第三方jar包 這時候打包就比較簡單: 1. 首先在Eclipse中打開項目, 右鍵點擊項目,選擇“Export”&#xff1…

第一天 :學習node.js

第一天 :學習node.js ① node.js環境配置 我學過的語言最簡單的一門 直接百度就可以配置 ② 每個入門 的程序都是從helloworld開始 代碼如下 : var httprequire(http); http.createServer(function(req,res){ res.writeHead(200,{content-type:text/htm…

c語言從入門到精通第四版電子書_C語言從入門到精通(吐血分享)4.pdf

C語言從入門到精通(吐血分享)4成功!結構體、鏈表、文件數組、字符串函數、指針三種結構化程序設計三種數據類型、六大表達式一、簡單的程序#include 數學函數 命令行main() /*主函數*/{ /*左花括號,函數體的開始 */int a,b,c; /*定義語句*/a 3; /*執行語…

從硬盤上把數據傳回到計算機稱為什么,計算機基礎知識 第一章 習題三

計算機基礎知識第一章習題三一、填空題1. 高級語言不能直接被計算機識別并執行,必須翻譯成機器語言,翻譯的方式有兩種:一種是編譯方式,另一種是方式。2. 計算機中存儲數據的最小單位是;存儲容量的基本單位是。3. CAI的…

Mentor PADS 9.5下載安裝及破解指南

Pads,是一款用于設計、模擬電子線路及設計電路板的電腦軟件,原由Innoveda公司開發,其后改名為PowerPCB,在2002年4月Innoveda被Mentor Graphics收購,近年再次改用原名Pads。目前該軟件是國內從事電路設計的工程師和技術…

Thymeleaf 學習筆記 (4)~~~~

2019獨角獸企業重金招聘Python工程師標準>>> 模板布局 模板布局主要用到的標記有這么幾個: th:fragment ,用來定義片段的,用法:th:fragment"fragmentName",起一個名字方便被其他地方引用&#xf…

憑證 金蝶_金蝶軟件賬務處理流程之——憑證錄入

金蝶是我們財務人非常熟悉的財務軟件,但是我們很多財務人只在應用軟件的時候還是會出現很多的問題,為了幫助大家更好地應用這個軟件,小編今天就來和大家講講關于金蝶軟件憑證查詢環節的一些基本處理流程。點擊主界面“憑證查詢”→彈出憑證過…

計算機網申興趣愛好怎么寫,銀行網申個人特長和興趣愛好怎么寫

銀行網申個人特長和興趣愛好怎么寫銀行網申中個人簡歷及興趣愛好怎么寫?下面jyj135小編為大家整理了銀行網申中個人特長和興趣愛好的寫作技巧,希望能為大家提供幫助!銀行網申特長及興趣愛好怎么寫?特長Strong Point(1)寫強項。弱項一定不要寫,面試人員…

單例模式討論篇:單例模式與垃圾回收

出處:http://blog.csdn.net/zhengzhb/article/details/7331354 Jvm的垃圾回收機制到底會不會回收掉長時間不用的單例模式對象,這的確是一個比較有爭議性的問題。將這一部分內容單獨成篇的目的也是為了與廣大博友廣泛的討論一下這個問題。為了能讓更多的人…

inline關鍵字

本文介紹了GCC和C99標準中inline使用上的不同之處。inline屬性在使用的時候,要注意以下兩點:inline關鍵字在GCC參考文檔中僅有對其使用在函數定義(Definition)上的描述,而沒有提到其是否能用于函數聲明(Dec…

springmvc 組合注解

組合注解的意思就是一個注解中包含多個注解。在springmvc 的RestController中,你就可發現. Target(ElementType.TYPE) Retention(RetentionPolicy.RUNTIME) Documented Controller ResponseBody public interface RestController {/*** The value may indicate a su…

人才管理是什么意思_上海托管倉庫外包倉庫管理什么意思

上海托管倉庫外包倉庫管理什么意思上海倉庫托管外包。好的上海倉庫托管是預估好自己的貨物總計有多少個方。車子的體積有多少,然后估算出總計需要多少車需要多少錢,需要怎么裝車、卸貨碼放方式是什么樣的,算出總的費用然后包干給搬家公司。這…

window server 安裝與卸載

安裝window server 程序:C:\Windows\Microsoft.NET\Framework\v2.0.50727\installutil DataUpdateService.exe net start LuceneServer 卸載window server 程序:net stop LuceneServer C:\Windows\Microsoft.NET\Framework\v2.0.50727\installutil /U DataUpdateService.exe …

Makefile學習(二)[第二版]

復雜實例#示例1:在上一個示例的基礎上再增加一個可執行文件03test[修改之處已標紅].PHONY: clean all CC gcc CFLAGS -Wall -gBIN 01test 02test 03testSOURCES $(BIN:.c)OBJECTS $(BIN:.o)all: $(BIN)01test: 01test.o02test: 02test.o03test: 03test.o.c.o:$(CC) $(CFLA…

計算機網絡asp視頻教程,輕輕松松學編程!ASP互動視頻教程

從2006年5月18日開始,PConline將與FIF聯合推出國內網上第一部互動視頻教程:《ASP互動視頻教程》。它預示著一個全新的自助學習時代的到來。盡管相較于傳統的圖文教程,以前的多媒體視頻課件優點非常明顯,但它仍然存在交互性差的缺點…