海量數據去重

news/2025/7/12 22:02:52/文章來源:https://hanhandi.blog.csdn.net/article/details/121519118

海量數據去重

一個文件中有40億條數據，每條數據是一個32位的數字串，設計算法對其去重，相同的數字串僅保留一個，內存限制1G.

方法一：排序

對所有數字串進行排序，重復的數據傳必然相鄰，保留第一個，去除后面重復的數字串即可。

缺點是排序時間復雜度太高，并且顯然是需要內排序+外排序一起的。優化的方法有掃雪機模型。

方法二：哈希表 + 文件分割

當然還有一種方法，取32位的前n位做一個哈希，然后把哈希值一樣的數據串放到一個文件里面。然后每次將一個文件load到內存中，然后對這個文件中的數據做個排序 or 哈希去重即可。

這樣的缺點是磁盤IO較多。

方法三：位圖

用512MB的unsigned int數組來記錄文件中數字串的存在與否，形成一個bitmap。

然后從0到2^32-1開始遍歷，如果flag為1，表明該數存在。這樣就自動實現了去重。

這個思路很好了。

本文來自互聯網用戶投稿，該文觀點僅代表作者本人，不代表本站立場。本站僅提供信息存儲空間服務，不擁有所有權，不承擔相關法律責任。
如若轉載，請注明出處：http://www.pswp.cn/news/376779.shtml
繁體地址，請注明出處：http://hk.pswp.cn/news/376779.shtml
英文地址，請注明出處：http://en.pswp.cn/news/376779.shtml

如若內容造成侵權/違法違規/事實不符，請聯系多彩編程網進行投訴反饋email:809451989@qq.com，一經查實，立即刪除！

相關文章

Sharepoint 2013 發布功能（Publishing features）

Sharepoint 2013 發布功能（Publishing features）

一、默認情況下，在創建網站集時，只有選擇的模板為‘ Publishing Portal（發布門戶）’與‘ Enterprise Wiki（企業 Wiki）’時才默認啟用發布功能，如下圖所示： 二、發布功能包含兩塊&…

閱讀更多...

【原】android啟動時白屏或者黑屏的問題

【原】android啟動時白屏或者黑屏的問題

解決應用啟動時白屏或者黑屏的問題由于Activity只能到onResume時，才能展示到前臺，所以，如果為MAIN activity設置背景的話，無論onCreate-onResume速度多快，都會出現短暫的白屏或者黑屏其實解決的辦法很簡單&#xff0…

閱讀更多...

【草稿】windows + vscode 遠程開發

【草稿】windows + vscode 遠程開發

主要分為三個步驟： 1、開啟openssh服務 2、通過ssh命令連接到遠程服務器 3、通過vscode連接遠程服務器進行開發調試 ssh概念 SSH是較可靠，專為遠程登陸會話和其他網絡服務提供安全性得協議，利用ssh協議可以有效防止遠程管理過程中得信息…

閱讀更多...

POJ3185(簡單BFS，主要做測試使用)

POJ3185(簡單BFS，主要做測試使用)

沒事做水了一道POJ的簡單BFS的題目這道題的數據范圍是20,所以狀態總數就是（1<<20） 第一次提交使用STL的queue，并且是在隊首判斷是否達到終點，達到終點就退出，超時：（其實這里我是很不明白…

閱讀更多...

tomcat站點配置

tomcat站點配置

tomcat版本：tomcat5.5.91、打開tomcat\conf\server.xml，在里面找到<Engine name"Catalina" defaultHost"localhost">.....</Engine>2、在<Engine name"Catalina" defaultHost"localhost"><…

閱讀更多...

新的視頻會議模式：StarlineProject

新的視頻會議模式：StarlineProject

目錄效果展示部分用戶參與度部分技術細節機械裝置以及硬件配置。視頻系統照明人臉跟蹤壓縮和傳輸圖像渲染音頻系統step1：捕獲音頻step2：音頻去噪處理step3：壓縮、傳輸、解壓step4：渲染可以改進的點效果展示部分〔映維網〕谷歌光場…

閱讀更多...

HDU 3934

HDU 3934

/*這是用的有旋轉卡殼的思想。首先確定i，j，對k進行循環，知道找到第一個k使得cross(i,j,k)>cross(i,j,k1),如果ki進入下一次循環。對j，k進行旋轉，每次循環之前更新最大值，然后固定一個j，同樣…

閱讀更多...

[ios] UILocalNotification實現本地的鬧鐘提醒【轉】

[ios] UILocalNotification實現本地的鬧鐘提醒【轉】

http://www.cnblogs.com/jiangshiyong/archive/2012/06/06/2538204.html轉載于:https://www.cnblogs.com/jinjiantong/archive/2013/04/01/2992624.html

閱讀更多...

sql server根據表中數據生成insert語句

sql server根據表中數據生成insert語句

幾個收藏的根據數據庫生成Insert語句的存儲過程[修正版]----根據表中數據生成insert語句的存儲過程--建立存儲過程，執行spGenInsertSQL 表名--感謝playyuer----感謝szyicol--CREATEproc[dbo].[spGenInsertSQL](tablenamevarchar(256))asbegindeclaresqlvarchar(8000…

閱讀更多...

Javascript eval()函數基礎回顧

Javascript eval()函數基礎回顧

如果您想詳細了解ev al和JSON請參考以下鏈接： eval ：https://developer.mozilla.org/En/Core_JavaScript_1.5_Reference/Global_Functions/Eval JSON：http://www.json.org/ eval函數的工作原理 eval函數會評估一個給定的含有JavaScript代碼的…

閱讀更多...

雜感無題|

雜感無題|

今天中午和組里面的人吃飯，聊起了科興跳樓的事情。這事其實前幾天我華為的mentor就轉給我了，當時也沒太在意，在脈脈上看了看，也不知曉是誰，想著可能又是抑郁癥吧。飯后依舊繞著食堂散步，ly說那個人好像還是…

閱讀更多...

uva1366_Martian Mining_簡單DP

uva1366_Martian Mining_簡單DP

題目不難，卻想了好長時間，目測自己DP還是很水。。。囧思路：舍f[i][j]為前i行j列的最大礦總量不難推出狀態轉移方程為f[i][j]max(f[i-1][j]line[i][j],f[i][j-1]row[j][i]) 其中line[i][j]為第i行前j個A礦的和（a[i][1]a[i][2]...a…

閱讀更多...

數學圖形之Boy surface

數學圖形之Boy surface

這是一個姓Boy的人發現的,所以取名為Boy surface.該圖形與羅馬圖形有點相似,都是三分的圖形.它甚至可以說是由羅馬曲面變化而成的. 本文將展示幾種Boy曲面的生成算法和切圖,使用自己定義語法的腳本代碼生成數學圖形.相關軟件參見:數學圖形可視化工具,該軟件免費開源.QQ交流群: …

閱讀更多...

開個定時器給echarts組件配置定時更新

開個定時器給echarts組件配置定時更新

我在js文件中開了個定時器，每1s從后端獲取數據并解析，然后用異步方法就渲染不出來，改成同步就可以了。這個解決方法來自于這篇文章，我出的問題和他一樣：關于ajax中readyState的值一直為1的問題這里將ajax參數修改為f…

閱讀更多...

SDK 操作 list-view control 實例 -- 遍歷進程

SDK 操作 list-view control 實例 -- 遍歷進程

遍歷窗口，獲得控件句柄 1 EnumChildWindows(hwndDlg, (WNDENUMPROC)EnumChildProc, NULL); 回調函數 1 BOOL CALLBACK EnumChildProc(HWND hwnd, LPARAM lParam )2 {3 char strCLSName[MAXBYTE] {0};4 GetClassName(hwnd, strCLSName, MAXBYTE);5 if (…

閱讀更多...

推薦一份不錯的清除默認樣式的CSS樣式

推薦一份不錯的清除默認樣式的CSS樣式

時間過得真快，離 Reset CSS 研究（八卦篇） 已經 3 個多月了。廢話少說，趕緊將技術篇寫完吧。回顧與反思第一份 reset css 是 Tantek 的 undohtml.css, 很簡單的代碼，Tantek 根據自己的需要，對瀏覽器的默認…

閱讀更多...

python深淺拷貝

python深淺拷貝

在python中，對象賦值實際上是對象的引用。當創建一個對象，然后把它賦給另一個變量的時候，python并沒有拷貝這個對象，而只是拷貝了這個對象的引用。所以一個結構類型被賦給另外一個對象的時候，盡可能不使用 &#xff…

閱讀更多...

Flash中的SLC/MLC/MLC--基礎

Flash中的SLC/MLC/MLC--基礎

參考 1.http://www.upantool.com/jiaocheng/qita/2012/slc_mlc_tlc.html 2.http://www.2ic.cn/html/10/t-432410.html 3.http://kms.lenovots.com/kb/article.php?id15382 4.http://www.albertknight.com/222.html 5.http://ssd.zol.com.cn/371/3716632.html 6.這個圖比較多 h…

閱讀更多...

python定義對象的比較方法

python定義對象的比較方法

有時候我們需要比較兩個對象。比如哪個對象大,哪個對象小。如果我們不告訴python如何比較,那么Python是不知道如何進行比較的。下面提供實例 #__eq__(self,other)： #在使用比較運算符比較兩個對象是否相等的時候會調用這個方法。 #如果是相等，那么應該返…

閱讀更多...

關于Oracle Insert 語句的子查詢和 with check option的用法

關于Oracle Insert 語句的子查詢和 with check option的用法

今日睇ocp教程發現 insert語句還可以子查詢例如：INSERT INTO (SELECT employee_id, last_name, email, hire_date, job_id, salary, department_id FROM employees where department_id 50 )VALUES (9999…

閱讀更多...

最新文章