《Hadoop與Spark大數據全景解析:視頻教學版》
01
本書內容
《Hadoop與Spark大數據全景解析:視頻教學版》結合作者多年在大數據領域的開發實踐經驗,采用“理論+實戰”的形式,以大量實例全面介紹Hadoop和Spark的基礎知識及其高級應用。作者將豐富的教學經驗,融入為讀者精心錄制的配套教學視頻中,并提供了書中所有實例的源碼,方便讀者學習和實踐。
《Hadoop與Spark大數據全景解析:視頻教學版》分為4篇,共12章。第1篇(第1、2章)準備篇,主要介紹Hadoop和Spark的基本概念,以及如何快速搭建Hadoop和Spark的學習環境。第2篇(第3~6章)入門篇,涵蓋Hadoop的高級特性、Spark的基礎知識與高級特性,以及大數據安全。第3篇(第7~10章)進階篇,深入講解數據采集與清洗、數據存儲與管理、數據分析與挖掘以及實時數據處理。第4篇(第11、12章)項目實戰篇,通過Hadoop和Spark實現一站式數據分析系統設計,以及ChatGPT賦能Hadoop與Spark大數據分析的項目實戰。
02
本書作者
鄧 杰
計算機科學與技術專業學士,目前就職于vivo移動互聯網公司,負責平臺方向及A1大模型應用方向的開發。對Hadoop、Spark、Hive、Flink、Kafka等大數據生態組件有著深入的研究。AI大模型技術的實踐者和研究者,撰寫過多篇高質量Al和Hadoop與Spark相關技術的文章,著有《深入理解Hive:從基礎到高階》《Kafka并不難學》和《Hadoop大數據挖掘從入門到進階實戰》等書籍。
03
本書讀者
《Hadoop與Spark大數據全景解析:視頻教學版》內容全面、結構清晰、案例豐富,既適合初學者自學,也適合開發者閱讀,還可作為培訓機構和高校相關課程的教學參考書。
04
本書目錄
第1篇? 準? ? 備
第1章? 了解Hadoop和Spark2
1.1? 什么是大數據處理2
1.1.1? 大數據概述2
1.1.2? 數據處理的挑戰4
1.2? 為什么選擇Hadoop和Spark5
1.2.1? Hadoop的優勢5
1.2.2? Spark的優勢6
1.3? 典型的大數據應用案例8
1.3.1? 行業應用案例8
1.3.2? 成功案例分析10
1.4? Hadoop和Spark的設計理念12
1.4.1? 設計初衷12
1.4.2? 解讀Hadoop和Spark的特性13
1.5? 本章小結15
第2章? 快速搭建Hadoop和Spark學習環境16
2.1? Hadoop簡介16
2.1.1? 起源與發展16
2.1.2? 核心組件介紹17
2.2? 基礎環境的安裝與配置19
2.2.1? 基礎軟件下載19
2.2.2? 實例:Linux操作系統的安裝與配置20
2.2.3? 實例:SSH的安裝與配置22
2.2.4? 實例:Java運行環境的安裝與配置24
2.2.5? 實例:安裝與配置Zookeeper26
2.3? Hadoop和Spark環境搭建30
2.3.1? 實例:Hadoop環境搭建31
2.3.2? 實例:Spark環境搭建46
2.4? Hadoop MapReduce基礎48
2.4.1? MapReduce編程模型之Map階段48
2.4.2? MapReduce編程模型之Reduce階段49
2.5? 本章小結51
2.6? 習題51
第2篇? 入? ? 門
第3章? Hadoop高級特性54
3.1? HDFS架構深度解析54
3.1.1? HDFS架構54
3.1.2? 數據塊管理56
3.1.3? 命名空間57
3.1.4? 數據一致性58
3.2? YARN調度器與資源管理60
3.2.1? YARN基本原理60
3.2.2? 資源分配策略62
3.3? Hadoop數據安全性63
3.3.1? 安全策略概述64
3.3.2? Kerberos認證65
3.4? Hadoop性能調優68
3.4.1? 集群性能監控68
3.4.2? 參數調優指南69
3.5? Hadoop實戰案例71
3.5.1? 實際問題解決71
3.5.2? 最佳實踐分享73
3.6? 本章小結77
3.7? 習題77
第4章? Spark基礎特性78
4.1? Spark簡介78
4.1.1? Spark發展歷程78
4.1.2? Spark核心思想79
4.2? Spark核心組件80
4.2.1? Spark Core81
4.2.2? Spark SQL83
4.3? Spark基本數據結構85
4.3.1? RDD概述85
4.3.2? DataFrame和DataSet介紹88
4.4? 內存管理96
4.4.1? 內存分配策略96
4.4.2? 內存回收機制101
4.5? 本章小結104
4.6? 習題104
第5章? Spark高級特性105
5.1? Spark SQL與結構化數據處理105
5.1.1? 使用Spark SQL進行數據查詢和分析105
5.1.2? Spark SQL數據類型與函數使用109
5.2? Spark Streaming與實時數據處理117
5.2.1? Spark Streaming的基本概念與架構117
5.2.2? Spark Streaming與Kafka的集成與應用122
5.3? Spark MLlib與機器學習124
5.3.1? Spark MLlib的常用算法與應用場景125
5.3.2? Spark MLlib與TensorFlow的比較與集成132
5.4? Spark GraphX與圖計算134
5.4.1? 圖計算的基本概念與Spark GraphX的架構134
5.4.2? Spark GraphX的常用算法與圖數據處理140
5.5? 本章小結147
5.6? 習題147
第6章? 大數據安全148
6.1? 大數據安全性挑戰148
6.1.1? 大數據安全的重要性148
6.1.2? Hadoop與Spark安全特性149
6.2? Hadoop安全架構151
6.2.1? Hadoop安全模型152
6.2.2? HDFS與YARN的安全機制153
6.3? Spark安全實踐155
6.3.1? Spark的安全配置155
6.3.2? Spark應用程序的訪問控制158
6.4? 數據加密與隱私保護164
6.5? 身份認證與授權174
6.6? 本章小結176
6.7? 習題176
第3篇? 進? ? 階
第7章? 數據采集與清洗178
7.1? Hadoop數據采集178
7.1.1? 數據源與采集工具178
7.1.2? Hadoop數據采集流程與案例181
7.2? Spark數據采集185
7.2.1? Spark數據源接入方式185
7.2.2? Spark數據采集的實踐與優化193
7.3? Hadoop數據清洗197
7.3.1? 數據清洗的基本概念與策略197
7.3.2? 使用MapReduce進行數據清洗198
7.4? Hadoop與Spark數據處理對比202
7.5? 本章小結204
7.6? 習題204
第8章? 數據存儲與管理205
8.1? 大數據存儲架構205
8.1.1? 存儲架構的演變205
8.1.2? 存儲架構選擇指南207
8.2? 存儲格式與壓縮214
8.2.1? 數據格式比較214
8.2.2? 壓縮算法分析216
8.3? 數據分區與分桶217
8.3.1? 數據分區218
8.3.2? 數據分桶226
8.4? 數據倉庫設計229
8.5? 本章小結231
8.6? 習題232
第9章? 數據分析與挖掘233
9.1? 大數據分析233
9.2? 數據挖掘算法237
9.2.1? 數據挖掘算法的分類與應用場景237
9.2.2? 常見的大數據挖掘算法及其實現原理239
9.3? 特征工程250
9.3.1? 特征提取與構建251
9.3.2? 特征類型與數據分析方法252
9.4? 本章小結256
9.5? 習題257
第10章? 實時數據處理258
10.1? 實時處理概念258
10.1.1? 實時數據處理的定義258
10.1.2? 實時數據處理與批處理對比260
10.2? Spark Streaming262
10.2.1? DStream概述263
10.2.2? 實時數據處理模型266
10.3? 實時數據處理工具比較271
10.3.1? Spark與Flink對比分析271
10.3.2? Kafka實時計算引擎選型實踐275
10.4? 本章小結284
10.5? 習題284
第4篇? 項 目 實 戰
第11章? 一站式數據分析系統設計與實現286
11.1? 大數據分析系統286
11.1.1? 大數據分析系統的價值286
11.1.2? 大數據分析系統的目的287
11.1.3? 大數據分析系統的應用場景288
11.2? 大數據分析系統架構289
11.2.1? 大數據分析系統的體系架構289
11.2.2? 設計大數據分析系統的核心模塊291
11.3? 實現大數據分析系統292
11.3.1? 數據采集292
11.3.2? 數據存儲295
11.3.3? 數據分析302
11.3.4? 數據服務304
11.4? 本章小結306
11.5? 習題306
第12章? ChatGPT賦能Hadoop與Spark大數據分析307
12.1? ChatGPT與大數據的智能融合探索307
12.1.1? ChatGPT全面解析307
12.1.2? ChatGPT在大數據分析中的角色313
12.2? 構建智能化的大數據處理引擎316
12.2.1? ChatGPT與Spark的集成實現316
12.2.2? ChatGPT與Spark應用案例分析320
12.3? ChatGPT與Spark數據分析與挖掘實踐324
12.3.1? ChatGPT與Spark技術整合324
12.3.2? ChatGPT在Spark數據分析中的應用326
12.4? 本章小結328
12.5? 習題328
05
本書特色
《Hadoop與Spark大數據全景解析:視頻教學版》是一部深入探討大數據、分布式計算和人工智能領域關鍵技術的書。通過專業的教學視頻和一線開發經驗,《Hadoop與Spark大數據全景解析:視頻教學版》帶領讀者深入了解Hadoop、Spark和ChatGPT,幫助他們掌握實踐技巧,提升數據處理能力,實現數據智能化應用。無論您是初學者還是資深專家,《Hadoop與Spark大數據全景解析:視頻教學版》都將為您打開大數據與人工智能的新視野,助您把握未來發展趨勢。精心編排的內容結構,淺顯易懂的講解方式,將使您獲得豐富的學習收獲。這本書將成為您學習與實踐的得力伙伴,助您在技術領域騰飛。
本文摘自《Hadoop與Spark大數據全景解析:視頻教學版》,獲出版社和作者授權發布。
Hadoop與Spark大數據全景解析(視頻教學版)——jdhttps://item.jd.com/14421833.html