大數據核心技術概論

大數據核心技術概述

大數據基石三大論文:GFS(Hadoop HDFS)、BigTable(Apache HBase)、MapReduce(Hadoop MapReduce)。

搜索引擎的核心任務:一是數據采集,也就是網頁的爬取;二是數據搜索,也就是索引的構建。 數據采集離不開存儲,索引的構建也需要大量計算,所以存儲容器和計算能力貫穿搜索引擎的整個更迭過程。

Google在 2003/2004/2006 年相繼發布谷歌分布式文件系統 GFS(被Hadoop HDFS借鑒)、大數據分布式計算框架 MapReduce(被Hadoop MapReduce借鑒)、大數據 NoSQL數據庫 BigTable (被Apache Hbase借鑒),這三篇論文奠定了大數據技術的基石。

大數據基石三大論文——GFS

?GFS解決復雜工程問題的設計細節如下:

  • 簡化系統元信息:Master 中維持了兩個重要的映射,分別是文件路徑到邏輯數據塊,邏輯塊與其多副本之間的關系。
  • 較大的數據塊:選擇了當時看來相當大的 64M 作為數據存儲的基本單位,以此來減少元信息。
  • 放寬的一致性:允許多副本間內容不一致來簡化實現、提高性能,通過讀校驗來保證損壞數據對用戶不可見。
  • 高效副本同步:在多副本同步時分離控制流和數據流,利用網絡拓撲提高同步效率。
  • 租約分散壓力:Master 通過租約將部分權力下放給某個 Chunkserver ,負責某個塊的多副本間的讀寫控制。
  • 追加并發優化:多客戶端對同一文件進行并發追加,保證數據原子性及At Least Once的語義。
  • 快速備份支持:使用 COW(Copy on Write) 策略實現快照操作,并通過塊的引用計數來進行寫時拷貝。
  • 逐節點鎖控制:對于每個操作,需要沿著文件路徑逐節點獲取讀鎖,葉子節點獲取讀鎖或者寫鎖,當然文件路徑會進行前綴壓縮。
  • 異步垃圾回收:將數據刪除與其他一些主節點的維護操作(損壞塊清除,過期數據塊移除)統一起來,成為一個定期過程。
  • 版本號標記:幫助客戶端識別過期數據。
  • 數據塊校驗和:針對每 64KB 的小塊打上 32 bit 的校驗和。

大數據基石三大論文——BigTable

?

大數據基石三大論文——MapReduce?

大數據技術體系——以Hadoop為例

Hadoop1.0

Hadoop2.0

Hadoop的優勢?

  • 易用性(低成本):Hadoop開源,軟件使用成本低;Hadoop可以運行在廉價機器構成的大型集群上,硬件使用成本低。
  • 高可靠性(高容錯性):Hadoop能夠保存數據的多個副本,自動檢測處理節點失敗的情況,并能夠自動重新分配失敗的任務。
  • 高效性:Hadoop能夠在節點之間動態的移動數據,并保證各個節點的動態平衡,因此處理速度非常快。
  • 高擴展性:Hadoop在計算機集群上分配數據并完成計算任務,計算機集群中可以增設節點。

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/news/716111.shtml
繁體地址,請注明出處:http://hk.pswp.cn/news/716111.shtml
英文地址,請注明出處:http://en.pswp.cn/news/716111.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

matlab 感知器算法

1. 原理 兩類線性可分的模式類:,設判別函數為:。 對樣本進行規范化處理,即類樣本全部乘以(-1),則有: 感知器算法通過對已知類別的訓練樣本集的學習,尋找一個滿足上式的權向量。 2. 過程 2.1 …

力扣 分割回文串

輸出的是不同的分割方案 class Solution { public:vector<vector<bool>>flag;vector<string>ans;vector<vector<string>>nums;void dfs(string &s,int i){int ns.size();if(in){i表示s長度&#xff0c;等于即全部分割完畢nums.push_back(ans…

第十三篇【傳奇開心果系列】Python的文本和語音相互轉換庫技術點案例示例:Microsoft Azure的Face API開發人臉識別門禁系統經典案例

傳奇開心果博文系列 系列博文目錄Python的文本和語音相互轉換庫技術點案例示例系列 博文目錄前言一、實現步驟和雛形示例代碼二、擴展思路介紹三、活體檢測深度解讀和示例代碼四、人臉注冊和管理示例代碼五、實時監控和報警示例代碼六、多因素認證示例代碼七、訪客管理示例代碼…

mac m3安裝nvm安裝說明;mac安裝xbrew

安裝說明說明&#xff1a; 1.安裝brew /bin/zsh -c "$(curl -fsSL https://gitee.com/cunkai/HomebrewCN/raw/master/Homebrew.sh)"2.安裝nvm brew install nvm3.創建.nvm目錄 mkdir ~/.nvm4.編輯 ~/.zshrc 配置文件 vi ~/.zshrc5.在 ~/.zshrc 配置文件內添加內…

03-JNI 類型和數據結構

上一篇&#xff1a; 02-設計概述 本章討論 JNI 如何將 Java 類型映射為本地 C 類型。 3.1 原始類型 下表描述了 Java 原始類型及其與機器相關的本地等價類型。 為方便起見&#xff0c;定義如下&#xff1a; #define JNI_FALSE 0 #define JNI_TRUE 1 jsize 整數類型用于描述…

邏輯回歸與決策邊界解析

目錄 前言1 邏輯回歸基礎1.1 Sigmoid函數&#xff1a;打開分類之門1.2 決策函數&#xff1a;劃定分類界限1.3 邏輯回歸詳解 2 決策邊界2.1 線性決策邊界2.2 非線性決策邊界2.3 決策邊界的優化 3 應用與實例3.1 垃圾郵件分類&#xff1a;精準過濾3.2 金融欺詐檢測&#xff1a;保…

.idea文件詳解

.idea文件的作用&#xff1a; .idea文件夾是存儲IntelliJ IDEA項目的配置信息&#xff0c;主要內容有IntelliJ IDEA項目本身的一些編譯配置、文件編碼信息、jar包的數據源和相關的插件配置信息。一般用git做版本控制的時候會把.idea文件夾排除&#xff0c;因為這個文件下保存的…

Java實戰:Spring Boot中實現熱搜與不雅文字過濾功能

引言 在當今互聯網產品中&#xff0c;搜索引擎的熱搜功能和內容過濾機制是提升用戶體驗、維護社區秩序的關鍵要素。本文將探討如何在Spring Boot項目中實現熱搜詞追蹤與不雅文字過濾&#xff0c;并通過具體的代碼示例&#xff0c;帶領我們深入了解其實現原理與步驟。 一、實現…

續Java的執行語句--學習JavaEE的day06

day06 一、for循環嵌套 需求1&#xff1a;打印以下圖形************for(int i 0;i<3;i){//控制行數for(int j 0;j<4;j){//控制列數System.out.print("*");}System.out.println();//換行}需求2&#xff1a;打印以下圖形* i0** i1*** i2**** i3***** i4for…

ISO_IEC_18598-2016自動化基礎設施管理(AIM)系統國際標準解讀(一)

██ ISO_IEC_18598-2016是什么標準&#xff1f; ISO/IEC 18598國際標準是由ISO&#xff08;國際標準化組織&#xff09;/IEC&#xff08;國際電工委員會&#xff09;聯合技術委員會1-信息技術的第25分委員會-信息技術設備互連小組制定的關于信息基礎設施自動化管理的國際標準&…

【AI Agent系列】【MetaGPT多智能體學習】6. 多智能體實戰 - 基于MetaGPT實現游戲【你說我猜】(附完整代碼)

本系列文章跟隨《MetaGPT多智能體課程》&#xff08;https://github.com/datawhalechina/hugging-multi-agent&#xff09;&#xff0c;深入理解并實踐多智能體系統的開發。 本文為該課程的第四章&#xff08;多智能體開發&#xff09;的第四篇筆記。今天我們來完成第四章的作…

java垃圾回收

垃圾回收 一個對象如果不再使用&#xff0c;需要手動釋放&#xff0c;否則就會出現內存泄漏。我們稱這種釋放對象的過程為垃圾回收&#xff0c;而需要程序員編寫代碼進行回收的方式為手動回收。 內存泄漏指的是不再使用的對象在系統中未被回收&#xff0c;內存泄漏的積累可能…

美國經濟政策轉向標記之一

美聯儲沃勒在紐約舉行的 2024 年美國貨幣政策論壇上表示&#xff0c;他希望看到美聯儲投資組合出現兩項關鍵進展&#xff1a; 首先&#xff0c;我希望看到美聯儲的機構MBS持有量降至零。其次&#xff0c;我希望美聯儲轉向增加短期美國國債在持有資產中的占比。在金融危機之前&a…

【ArcGIS Pro二次開發】(83):ProWindow和WPF的一些技巧

在ArcGIS Pro二次開發中&#xff0c;SDK提供了一種工具界面【ArcGIS Pro ProWindow】。 關于ProWindow的用法&#xff0c;之前寫過一篇基礎的教程&#xff1a; 【ArcGIS Pro二次開發】(13)&#xff1a;ProWindow的用法_arcgispro二次開發教程-CSDN博客 主要是對幾個常用控件…

異步編程實戰之webflux

一, 快速搭建webflux項目 1, 引入相關依賴 <parent><groupId>org.springframework.boot</groupId><artifactId>spring-boot-starter-parent</artifactId><version>2.6.5</version><relativePath/> <!-- lookup parent fr…

【嵌入式實踐】【芝麻】【設計篇-2】從0到1給電動車添加指紋鎖:項目可行性分析

0. 前言 該項目是基于stm32F103和指紋模塊做了一個通過指紋鎖控制電動車的小工具。支持添加指紋、刪除指紋&#xff0c;電動車進入P檔等待時計時&#xff0c;計時超過5min則自動鎖車&#xff0c;計時過程中按剎車可中斷P檔狀態&#xff0c;同時中斷鎖車計時。改項目我稱之為“芝…

EMR StarRocks實戰——猿輔導的OLAP演進之路

目錄 一、數據需求產生 二、OLAP選型 2.1 需求 2.2 調研 2.3 對比 三、StarRocks的優勢 四、業務場景和技術方案 4.1 整體的數據架構 4.2 BI自助/報表/多維分析 4.3 實時事件分析 4.5 直播教室引擎性能監控 4.4 B端業務后臺—斑馬 4.5 學校端數據產品—飛象星球 4…

Ajax(黑馬學習筆記)

Ajax介紹 Ajax概述 我們前端頁面中的數據&#xff0c;如下圖所示的表格中的學生信息&#xff0c;應該來自于后臺&#xff0c;那么我們的后臺和前端是互不影響的2個程序&#xff0c;那么我們前端應該如何從后臺獲取數據呢&#xff1f;因為是2個程序&#xff0c;所以必須涉及到…

【ACM】—藍橋杯大一暑期集訓Day3

&#x1f680;歡迎來到本文&#x1f680; &#x1f349;個人簡介&#xff1a;陳童學哦&#xff0c;目前學習C/C、算法、Python、Java等方向&#xff0c;一個正在慢慢前行的普通人。 &#x1f3c0;系列專欄&#xff1a;陳童學的日記 &#x1f4a1;其他專欄&#xff1a;CSTL&…

langchain學習筆記(九)

RunnableBranch: Dynamically route logic based on input | &#x1f99c;?&#x1f517; Langchain 基于輸入的動態路由邏輯&#xff0c;通過上一步的輸出選擇下一步操作&#xff0c;允許創建非確定性鏈。路由保證路由間的結構和連貫。 有以下兩種方法執行路由 1、通過Ru…