大數據:互聯網大規模數據挖掘與分布式處理

《大數據:互聯網大規模數據挖掘與分布式處理》
基本信息
原書名:Mining of Massive Datasets
作者: (美)拉賈拉曼(Rajaraman,A.) (美)厄爾曼(Ullman,J.D.) [作譯者介紹]
譯者: 王斌
叢書名: 圖靈程序設計叢書
出版社:人民郵電出版社
ISBN:9787115291318
上架時間:2012-9-23
出版日期:2012 年9月
開本:16開
頁碼:1
版次:1-1
所屬分類: 計算機
內容簡介

更多關于 》》》《大數據:互聯網大規模數據挖掘與分布式處理
書籍
計算機書籍
  《大數據:互聯網大規模數據挖掘與分布式處理》由斯坦福大學的“web 挖掘”課程的內容總結而成,主要關注極大規模數據的挖掘。主要內容包括分布式文件系統、相似性搜索、搜索引擎技術、頻繁項集挖掘、聚類算法、廣告管理及推薦系統。其中相關章節有對應的習題,以鞏固所講解的內容。讀者更可以從網上獲取相關拓展材料。
  《大數據:互聯網大規模數據挖掘與分布式處理》適合本科生、研究生及對數據挖掘感興趣的讀者閱讀。
目錄
《大數據:互聯網大規模數據挖掘與分布式處理》
第1章  數據挖掘基本概念  1
1.1  數據挖掘的定義  1
1.1.1  統計建模  1
1.1.2  機器學習  1
1.1.3  建模的計算方法  2
1.1.4  數據匯總  2
1.1.5  特征抽取  3
1.2  數據挖掘的統計限制  4
1.2.1  整體情報預警  4
1.2.2  邦弗朗尼原理  4
1.2.3  邦弗朗尼原理的一個例子  5
1.2.4  習題  6
1.3  相關知識  6
1.3.1  詞語在文檔中的重要性  6
1.3.2  哈希函數  7
1.3.3  索引  8
1.3.4  二級存儲器  10
1.3.5  自然對數的底e  10
1.3.6  冪定律  11
1.3.7  習題  12
1.4  本書概要  13
1.5  小結  14
1.6  參考文獻  14
第2章  大規模文件系統及map-reduce  16
2.1  分布式文件系統  16
2.1.1  計算節點的物理結構  17
2.1.2  大規模文件系統的結構  18
2.2  map-reduce  18
2.2.1  map任務  19
2.2.2  分組和聚合  20
2.2.3  reduce任務  20
2.2.4  組合器  21
2.2.5  map-reduce的執行細節  21
2.2.6  節點失效的處理  22
2.3  使用map-reduce的算法  22
2.3.1  基于map-reduce的矩陣—向量乘法實現  23
2.3.2  向量v無法放入內存時的處理  23
2.3.3  關系代數運算  24
2.3.4  基于map-reduce的選擇運算  26
2.3.5  基于map-reduce的投影運算  26
2.3.6  基于map-reduce的并、交和差運算  27
2.3.7  基于map-reduce的自然連接運算  27
2.3.8  一般性的連接算法  28
2.3.9  基于map-reduce的分組和聚合運算  28
2.3.10  矩陣乘法  29
2.3.11  基于單步map-reduce的矩陣乘法  29
2.3.12  習題  30
2.4  map-reduce的擴展  31
2.4.1  工作流系統  31
2.4.2  map-reduce的遞歸擴展版本  32
2.4.3  pregel系統  34
2.4.4  習題  35
2.5  集群計算算法的效率問題  35
2.5.1  集群計算的通信開銷模型  35
2.5.2  實耗通信開銷  36
2.5.3  多路連接  37
2.5.4  習題  40
2.6  小結  40
2.7  參考文獻  42
……
第6章  頻繁項集  146
6.1  購物籃模型  146
6.1.1  頻繁項集的定義  146
6.1.2  頻繁項集的應用  148
6.1.3  關聯規則  149
6.1.4  高可信度關聯規則的發現  150
6.1.5  習題  151
6.2  購物籃及a-priori算法  152
6.2.1  購物籃數據的表示  152
6.2.2  項集計數中的內存使用  153
6.2.3  項集的單調性  154
6.2.4  二元組計數  155
6.2.5  a-priori算法  155
6.2.6  所有頻繁項集上的a-priori算法  157
6.2.7  習題  158
6.3  更大數據集在內存中的處理  159
6.3.1  pcy算法  160
6.3.2  多階段算法  161
6.3.3  多哈希算法  163
6.3.4  習題  164
6.4  有限掃描算法  166
6.4.1  簡單的隨機化算法  166
6.4.2  抽樣算法中的錯誤規避  167
6.4.3  son算法  168
6.4.4  son算法和map-reduce  168
6.4.5  toivonen算法  169
6.4.6  toivonen算法的有效性分析  170
6.4.7  習題  170
6.5  流中的頻繁項計數  171
6.5.1  流的抽樣方法  171
6.5.2  衰減窗口中的頻繁項集  172
6.5.3  混合方法  172
6.5.4  習題  173
6.6  小結  173
6.7  參考文獻  175
第7章  聚類  176
7.1  聚類技術介紹  176
7.1.1  點、空間和距離  176
7.1.2  聚類策略  177
7.1.3  維數災難  178
7.1.4  習題  179
7.2  層次聚類  179
7.2.1  歐氏空間下的層次聚類  180
7.2.2  層次聚類算法的效率  183
7.2.3  控制層次聚類的其他規則  183
7.2.4  非歐空間下的層次聚類  185
7.2.5  習題  186
7.3  k-均值算法  187
7.3.1  k-均值算法基本知識  187
7.3.2  k-均值算法的簇初始化  187
7.3.3  選擇k的正確值  188
7.3.4  bfr算法  189
7.3.5  bfr算法中的數據處理  191
7.3.6  習題  192
7.4  cure算法  193
7.4.1  cure算法的初始化  194
7.4.2  cure算法的完成  195
7.4.3  習題  195
7.5  非歐空間下的聚類  196
7.5.1  grgpf算法中的簇表示  196
7.5.2  簇表示樹的初始化  196
7.5.3  grgpf算法中的點加入  197
7.5.4  簇的分裂及合并  198
7.5.5  習題  199
7.6  流聚類及并行化  199
7.6.1  流計算模型  199
7.6.2  一個流聚類算法  200
7.6.3  桶的初始化  200
7.6.4  桶合并  200
7.6.5  查詢應答  202
7.6.6  并行環境下的聚類  202
7.6.7  習題  203
7.7  小結  203
7.8  參考文獻  205
第8章  web廣告  207
8.1  在線廣告相關問題  207
8.1.1  廣告機會  207
8.1.2  直投廣告  208
8.1.3  展示廣告的相關問題  208
8.2  在線算法  209
8.2.1  在線和離線算法  209
8.2.2  貪心算法  210
8.2.3  競爭率  211
8.2.4  習題  211
8.3  廣告匹配問題  212
8.3.1  匹配及完美匹配  212
8.3.2  最大匹配貪心算法  213
8.3.3  貪心匹配算法的競爭率  213
8.3.4  習題  214
8.4  adwords問題  214
8.4.1  搜索廣告的歷史  215
8.4.2  adwords問題的定義  215
8.4.3  adwords問題的貪心方法  216
8.4.4  balance算法  217
8.4.5  balance算法競爭率的一個下界  217
8.4.6  多投標者的balance算法  219
8.4.7  一般性的balance算法  220
8.4.8  adwords問題的最后論述  221
8.4.9  習題  221
8.5  adwords的實現  221
8.5.1  投標和搜索查詢的匹配  222
8.5.2  更復雜的匹配問題  222
8.5.3  文檔和投標之間的匹配算法  223
8.6  小結  224
8.7  參考文獻  226
第9章  推薦系統  227
9.1  一個推薦系統的模型  227
9.1.1  效用矩陣  227
9.1.2  長尾現象  228
9.1.3  推薦系統的應用  230
9.1.4  效用矩陣的填充  230
9.2  基于內容的推薦  231
9.2.1  項模型  231
9.2.2  文檔的特征發現  231
9.2.3  基于tag的項特征獲取  232
9.2.4  項模型的表示  233
9.2.5  用戶模型  234
9.2.6  基于內容的項推薦  235
9.2.7  分類算法  235
9.2.8  習題  237
9.3  協同過濾  238
9.3.1  相似度計算  238
9.3.2  相似度對偶性  241
9.3.3  用戶聚類和項聚類  242
9.3.4  習題  243
9.4  降維處理  243
9.4.1  uv分解  244
9.4.2  rmse  244
9.4.3  uv分解的增量式計算  245
9.4.4  對任一元素的優化  247
9.4.5  一個完整uv分解算法的構建  248
9.4.6  習題  250
9.5  netflix競賽  250
9.6  小結  251
9.7  參考文獻  253
索引  254

圖書信息來源于:中國互動出版網

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/news/449753.shtml
繁體地址,請注明出處:http://hk.pswp.cn/news/449753.shtml
英文地址,請注明出處:http://en.pswp.cn/news/449753.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

pip 切換源安裝

https://pypi.tuna.tsinghua.edu.cn/simple/ # 清華大學 https://mirrors.aliyun.com/pypi/simple/ # 阿里云 https://pypi.douban.com/simple/ # 豆瓣 https://pypi.mirrors.ustc.edu.cn/simple/ # 中國科學技術大學 https://pypi.hustunique.com/ # 華中科技大學 代碼…

String... 參數定義中有三個點的意思

前些天發現了一個巨牛的人工智能學習網站,通俗易懂,風趣幽默,忍不住分享一下給大家。點擊跳轉到教程。 有一個方法: protected void addMessage(String... messages) { ... } String... 是指參數的長度是可以變化的&#xff0…

SpringCloud框架搭建+實際例子+講解+系列五

(4)服務消費者,面向前端或者用戶的服務 本模塊涉及到很多知識點:比如Swagger的應用,SpringCloud斷路器的使用,服務API的檢查、token的校驗,feign消費者的使用。大致代碼框架如下: 先…

軟件開發者最重要的四大技能

摘要:現如今,可供選擇的技術、語言及平臺可謂五花八門,因此要弄明白哪里是花時間訓練的最佳投資點也就難上加難…… 現如今,可供選擇的技術、語言及平臺可謂五花八門,因此作為軟件開發者,要弄明白哪里是花時…

數據缺失的補充與修改

1查看數據情況 df.shape df.info() 2.用指定值填充 df df.fillna(x) 3.判斷是否缺失 df.isnull() 4.刪除缺失數據 df df.dropna() 5.補充平均值 df df.fillna(df.mean()) 6.填充他前面一個元素值(ffill向前填充,bfill向后填充)(limit:可以…

其他-私人♂收藏(比賽記錄 Mar, 2019)

OwO 03.03 [USACO19JAN] A. Redistricting 題意:給 \(g\) ,求 \(f(n)\) 。 \(f(i)f(j)[g(i)\ge g(j)],j \in (i-k,i]\) 。 離散化之后線段樹優化 DP ;或者發現額外貢獻最多只有 \(1\) ,單調隊列。 B. Exercise Route 題意&#xf…

JSR 303 - Bean Validation 簡介及使用方法

前些天發現了一個巨牛的人工智能學習網站,通俗易懂,風趣幽默,忍不住分享一下給大家。點擊跳轉到教程。 一、JSR-303簡介 JSR-303 是 JAVA EE 6 中的一項子規范,叫做 Bean Validation,官方參考實現是Hibernate Valida…

POJ 3683 Priest John's Busiest Day(2-ST)

題目鏈接:http://poj.org/problem?id3683 題意:有n個婚禮要舉行,但是只有一個牧師。第i個婚禮使用牧師的時間長為leni,可以在開始時或結束時使用。問能否使得n個婚禮均舉行? 思路:對于婚禮i,i*2-1表示在開…

12個git實戰建議和技巧

摘要:git無疑是現在最熱門的版本控制工具,而且正在進一步侵占SVN以及CVS的市場。本文作者從國外技術問答社區Stack Overflow整理的12個很實用的git使用技巧和建議,希望對你有幫助。 1.使用“git diff”來折疊多行 用git diff經常會出現很多內…

python讀寫json和txt

讀寫json #數據保存如json文件 import json jsObj json.dumps(code_sec) fileObject open(jsonFile.json, w) fileObject.write(jsObj) fileObject.close() #讀取json文件 # 將類文件對象中的JSON字符串直接轉換成 Python 字典 with open(jsonFile.json, r, encoding…

Java 12 將于3月19日發布,8 個最終 JEP 一覽

開發四年只會寫業務代碼,分布式高并發都不會還做程序員? JDK 12 已于2018年12月進入 Rampdown Phase One 階段,這意味著該版本所有新的功能特性被凍結,不會再加入更多的 JEP 。該階段將持續一個月,主要修復 P1-P3 級…

股票期貨數據的resample處理

? import pandas as pd stock_day pd.read_csv("stock_day.csv") stock_day stock_day.sort_index() # 對每日交易數據進行重采樣 (頻率轉換) stock_day.index# 1、必須將時間索引類型轉換成Pandas默認的類型 stock_day.index pd.to_datet…

ArcEngine調用FeatureToLine工具傳參問題

FeatureToLine工具的in_features參數不能為內存圖層,否則會報內存錯誤,正確的寫法如下: FeatureToLine ftrToLine new FeatureToLine(); ftrToLine.in_features cpj.TempWs.PathName "\OriginDataset\" currentFc.Key; ftrToLi…

程序員如何做出“不難看”的設計

摘要:程序員在寫代碼的時候往往只注重功能的實現和性能的提升,忽視了外觀和易用性,其實很多時候只要注意一些基本的規則,就可以大幅度提高產品的觀感。 經常看到程序員展示自己做的東西,有一些是創業項目,有…

微服務實戰(二):使用API Gateway

前些天發現了一個巨牛的人工智能學習網站,通俗易懂,風趣幽默,忍不住分享一下給大家。點擊跳轉到教程。 當你決定將應用作為一組微服務時,需要決定應用客戶端如何與微服務交互。在單體式程序中,通常只有一組冗余的或者…

sql數據庫挖坑

sql數據庫存入數據時,因為列 名不允許有括號,無法識別,需要對括號進行剔除 df df.rename(columnslambda x: x.replace("(","").replace(),))

力扣——頂端迭代器

給定一個迭代器類的接口,接口包含兩個方法: next() 和 hasNext()。設計并實現一個支持 peek() 操作的頂端迭代器 -- 其本質就是把原本應由 next() 方法返回的元素 peek() 出來。 示例: 假設迭代器被初始化為列表 [1,2,3]。調用 next() 返回 1&#xff0c…

五步讓你成為專家級程序員

摘要:Mark Lassoff是一位高級技術培訓師,從事培訓工作已有10余年。他培訓的客戶包括美國國防部、Lockheed Martin等。在多年的培訓生涯中,他總結了一些如何快速學習一門語言的技巧,這些技巧非常簡單,但是卻讓人受益匪淺…

Ionic混合移動app框架學習

第一章 緒論創建移動app有三種安卓原生App,使用java語言,目前推薦kotlin語言,開發工具Android studioIOS原生App,使用Objective-C或者Swift語言,開發工具Xcode混合移動App,使用web通用語言(HTML…

IPC 中 LPC、RPC 的區別和聯系

前些天發現了一個巨牛的人工智能學習網站,通俗易懂,風趣幽默,忍不住分享一下給大家。點擊跳轉到教程。 進程間通信(IPC,Inter-Process Communication),指至少兩個進程或線程間傳送數據或信號的…