注冊 | 登錄讀書好,好讀書,讀好書!
讀書網(wǎng)-DuShu.com
當(dāng)前位置: 首頁出版圖書科學(xué)技術(shù)計(jì)算機(jī)/網(wǎng)絡(luò)家庭與辦公軟件大數(shù)據(jù) 互聯(lián)網(wǎng)大規(guī)模數(shù)據(jù)挖掘與分布式處理(第2版)

大數(shù)據(jù) 互聯(lián)網(wǎng)大規(guī)模數(shù)據(jù)挖掘與分布式處理(第2版)

大數(shù)據(jù) 互聯(lián)網(wǎng)大規(guī)模數(shù)據(jù)挖掘與分布式處理(第2版)

定 價(jià):¥79.00

作 者: (美)萊斯科夫(Jure Leskovec)拉賈拉曼(Anand Rajaraman)厄爾曼(Jeffrey David Ullman)
出版社: 人民郵電出版社
叢編項(xiàng):
標(biāo) 簽: 計(jì)算機(jī)/網(wǎng)絡(luò) 數(shù)據(jù)倉庫與數(shù)據(jù)挖掘 數(shù)據(jù)庫

ISBN: 9787115395252 出版時(shí)間: 2015-07-01 包裝:
開本: 頁數(shù): 字?jǐn)?shù):  

內(nèi)容簡介

  本書由斯坦福大學(xué)“Web挖掘”課程的內(nèi)容總結(jié)而成,主要關(guān)注極大規(guī)模數(shù)據(jù)的挖掘。主要內(nèi)容包括分布式文件系統(tǒng)、相似性搜索、搜索引擎技術(shù)、頻繁項(xiàng)集挖掘、聚類算法、廣告管理及推薦系統(tǒng)。其中相關(guān)章節(jié)有對應(yīng)的習(xí)題,以鞏固所講解的內(nèi)容。讀者更可以從網(wǎng)上獲取相關(guān)拓展材料。

作者簡介

  Jure Leskovec 斯坦福大學(xué)計(jì)算機(jī)科學(xué)系助理教授,研究方向是大型社交和信息網(wǎng)絡(luò)的數(shù)據(jù)挖掘。他的研究成果獲得了很多獎(jiǎng)項(xiàng),如Microsoft Research Faculty Fellowship、Alfred P. Sloan Fellowship和Okawa Foundation Fellowship,還獲得了很多最佳論文獎(jiǎng),同時(shí)也被《紐約時(shí)報(bào)》《華爾街日報(bào)》《華盛頓郵報(bào)》《麻省理工科技評論》《連線》、NBC、BBC等流行的社會媒體刊載。他還創(chuàng)建了斯坦福網(wǎng)絡(luò)分析平臺(SNAP,http://snap.stanford.edu)。Twitter賬號是@jure。Anand Rajaraman 數(shù)據(jù)庫和Web技術(shù)領(lǐng)域權(quán)威,創(chuàng)業(yè)投資基金Cambrian聯(lián)合創(chuàng)始人,斯坦福大學(xué)計(jì)算機(jī)科學(xué)系助理教授。Rajaraman的職業(yè)生涯非常成功:1996年創(chuàng)辦Junglee公司,兩年后被亞馬遜以2.5億美元收購,Rajaraman被聘為亞馬遜技術(shù)總監(jiān),推動亞馬遜從一個(gè)零售商轉(zhuǎn)型為零售平臺;2000年與人合創(chuàng)Cambrian,孵化出幾個(gè)后來被谷歌收購的公司;2005年創(chuàng)辦Kosmix公司并任CEO,該公司于2011年被沃爾瑪集團(tuán)收購,Rajaraman被聘為沃爾瑪負(fù)責(zé)全球電子商務(wù)業(yè)務(wù)的高級副總裁。Rajaraman生于印度,在斯坦福大學(xué)獲得計(jì)算機(jī)科學(xué)碩士和博士學(xué)位。求學(xué)期間與人合著的一篇論文榮列近20年來被引用次數(shù)最多的論文之一。Twitter賬號是@anand_raj。Jeffrey David Ullman 美國國家工程院院士,計(jì)算機(jī)科學(xué)家。早年在貝爾實(shí)驗(yàn)室工作,之后任教于普林斯頓大學(xué),十年后加入斯坦福大學(xué)直至退休,一生的科研、著書和育人成果卓著。他是ACM會員,曾獲SIGMOD創(chuàng)新獎(jiǎng)、高德納獎(jiǎng)、馮諾依曼獎(jiǎng)等多項(xiàng)科研大獎(jiǎng);他是“龍書”《編譯原理》、數(shù)據(jù)庫名著《數(shù)據(jù)庫系統(tǒng)實(shí)現(xiàn)》等多部經(jīng)典著作的合著者;麾下多名學(xué)生成為了數(shù)據(jù)庫領(lǐng)域的專家,其中最有名的當(dāng)屬谷歌創(chuàng)始人Sergey Brin;本書第二作者也是他的得意弟子。Ullman目前任Gradiance公司CEO。

圖書目錄

目錄
第1 章 數(shù)據(jù)挖掘基本概念 1
1.1 數(shù)據(jù)挖掘的定義 1
1.1.1 統(tǒng)計(jì)建模 1
1.1.2 機(jī)器學(xué)習(xí) 1
1.1.3 建模的計(jì)算方法 2
1.1.4 數(shù)據(jù)匯總 2
1.1.5 特征抽取 3
1.2 數(shù)據(jù)挖掘的統(tǒng)計(jì)限制 4
1.2.1 整體情報(bào)預(yù)警 4
1.2.2 邦弗朗尼原理 4
1.2.3 邦弗朗尼原理的一個(gè)例子 5
1.2.4 習(xí)題 6
1.3 相關(guān)知識 6
1.3.1 詞語在文檔中的重要性 6
1.3.2 哈希函數(shù) 7
1.3.3 索引 8
1.3.4 二級存儲器 9
1.3.5 自然對數(shù)的底e 10
1.3.6 冪定律 11
1.3.7 習(xí)題 12
1.4 本書概要 13
1.5 小結(jié) 14
1.6 參考文獻(xiàn) 15
第2 章 MapReduce及新軟件棧 16
2.1 分布式文件系統(tǒng) 17
2.1.1 計(jì)算節(jié)點(diǎn)的物理結(jié)構(gòu) 17
2.1.2 大規(guī)模文件系統(tǒng)的結(jié)構(gòu) 18
2.2 MapReduce 19
2.2.1 Map 任務(wù) 20
2.2.2 按鍵分組 20
2.2.3 Reduce 任務(wù) 21
2.2.4 組合器 21
2.2.5 MapReduce 的執(zhí)行細(xì)節(jié) 22
2.2.6 節(jié)點(diǎn)失效的處理 23
2.2.7 習(xí)題 23
2.3 使用MapReduce 的算法 23
2.3.1 基于MapReduce 的矩陣—向量
乘法實(shí)現(xiàn) 24
2.3.2 向量v 無法放入內(nèi)存時(shí)的處理 24
2.3.3 關(guān)系代數(shù)運(yùn)算 25
2.3.4 基于MapReduce 的選擇運(yùn)算 27
2.3.5 基于MapReduce 的投影運(yùn)算 27
2.3.6 基于MapReduce 的并、交和差運(yùn)算 28
2.3.7 基于MapReduce 的自然連接運(yùn)算 28
2.3.8 基于MapReduce 的分組和聚合運(yùn)算 29
2.3.9 矩陣乘法 29
2.3.10 基于單步MapReduce 的矩陣乘法 30
2.3.11 習(xí)題 31
2.4 MapReduce 的擴(kuò)展 31
2.4.1 工作流系統(tǒng) 32
2.4.2 MapReduce 的遞歸擴(kuò)展版本 33
2.4.3 Pregel 系統(tǒng) 35
2.4.4 習(xí)題 35
2.5 通信開銷模型 36
2.5.1 任務(wù)網(wǎng)絡(luò)的通信開銷 36
2.5.2 時(shí)鐘時(shí)間 37
2.5.3 多路連接 38
2.5.4 習(xí)題 41
2.6 MapReduce 復(fù)雜性理論 41
2.6.1 Reducer 規(guī)模及復(fù)制率 41
2.6.2 一個(gè)例子:相似性連接 42
2.6.3 MapReduce 問題的一個(gè)圖模型 44
2.6.4 映射模式 45
2.6.5 并非所有輸入都存在時(shí)的處理 46
2.6.6 復(fù)制率的下界 46
2.6.7 案例分析:矩陣乘法 48
2.6.8 習(xí)題 51
2.7 小結(jié) 51
2.8 參考文獻(xiàn) 53
第3 章 相似項(xiàng)發(fā)現(xiàn) 55
3.1 近鄰搜索的應(yīng)用 55
3.1.1 集合的Jaccard 相似度 55
3.1.2 文檔的相似度 56
3.1.3 協(xié)同過濾——一個(gè)集合相似問題 57
3.1.4 習(xí)題 58
3.2 文檔的shingling 58
3.2.1 k-shingle 58
3.2.2 shingle 大小的選擇 59
3.2.3 對shingle 進(jìn)行哈希 59
3.2.4 基于詞的shingle 60
3.2.5 習(xí)題 60
3.3 保持相似度的集合摘要表示 61
3.3.1 集合的矩陣表示 61
3.3.2 最小哈希 62
3.3.3 最小哈希及Jaccard 相似度 62
3.3.4 最小哈希簽名 63
3.3.5 最小哈希簽名的計(jì)算 63
3.3.6 習(xí)題 66
3.4 文檔的局部敏感哈希算法 67
3.4.1 面向最小哈希簽名的LSH 67
3.4.2 行條化策略的分析 68
3.4.3 上述技術(shù)的綜合 69
3.4.4 習(xí)題 70
3.5 距離測度 70
3.5.1 距離測度的定義 71
3.5.2 歐氏距離 71
3.5.3 Jaccard 距離 72
3.5.4 余弦距離72
3.5.5 編輯距離 73
3.5.6 海明距離 74
3.5.7 習(xí)題 74
3.6 局部敏感函數(shù)理論 75
3.6.1 局部敏感函數(shù) 76
3.6.2 面向Jaccard 距離的局部敏感函數(shù)族 77
3.6.3 局部敏感函數(shù)族的放大處理 77
3.6.4 習(xí)題 79
3.7 面向其他距離測度的LSH 函數(shù)族 80
3.7.1 面向海明距離的LSH 函數(shù)族 80
3.7.2 隨機(jī)超平面和余弦距離 80
3.7.3 梗概 81
3.7.4 面向歐氏距離的LSH 函數(shù)族 82
3.7.5 面向歐氏空間的更多LSH函數(shù)族 83
3.7.6 習(xí)題 83
3.8 LSH 函數(shù)的應(yīng)用 84
3.8.1 實(shí)體關(guān)聯(lián) 84
3.8.2 一個(gè)實(shí)體關(guān)聯(lián)的例子 85
3.8.3 記錄匹配的驗(yàn)證 86
3.8.4 指紋匹配 87
3.8.5 適用于指紋匹配的LSH函數(shù)族 87
3.8.6 相似新聞報(bào)道檢測 88
3.8.7 習(xí)題 89
3.9 面向高相似度的方法 90
3.9.1 相等項(xiàng)發(fā)現(xiàn) 90
3.9.2 集合的字符串表示方法 91
3.9.3 基于長度的過濾 91
3.9.4 前綴索引 92
3.9.5 位置信息的使用 93
3.9.6 使用位置和長度信息的索引 94
3.9.7 習(xí)題 96
3.10 小結(jié) 97
3.11 參考文獻(xiàn) 98
第4 章 數(shù)據(jù)流挖掘 100
4.1 流數(shù)據(jù)模型 100
4.1.1 一個(gè)數(shù)據(jù)流管理系統(tǒng) 100
4.1.2 流數(shù)據(jù)源的例子 101
4.1.3 流查詢 102
4.1.4 流處理中的若干問題 103
4.2 流當(dāng)中的數(shù)據(jù)抽樣 103
4.2.1 一個(gè)富于啟發(fā)性的例子 104
4.2.2 代表性樣本的獲取 104
4.2.3 一般的抽樣問題 105
4.2.4 樣本規(guī)模的變化 105
4.2.5 習(xí)題 106
4.3 流過濾 106
4.3.1 一個(gè)例子 106
4.3.2 布隆過濾器 107
4.3.3 布隆過濾方法的分析 107
4.3.4 習(xí)題108
4.4 流中獨(dú)立元素的數(shù)目統(tǒng)計(jì) 109
4.4.1 獨(dú)立元素計(jì)數(shù)問題 109
4.4.2 FM 算法 109
4.4.3 組合估計(jì) 110
4.4.4 空間需求 111
4.4.5 習(xí)題 111
4.5 矩估計(jì) 111
4.5.1 矩定義 111
4.5.2 二階矩估計(jì)的AMS 算法 112
4.5.3 AMS 算法有效的原因 113
4.5.4 更高階矩的估計(jì) 113
4.5.5 無限流的處理 114
4.5.6 習(xí)題 115
4.6 窗口內(nèi)的計(jì)數(shù)問題 116
4.6.1 精確計(jì)數(shù)的開銷 116
4.6.2 DGIM 算法 116
4.6.3 DGIM 算法的存儲需求 118
4.6.4 DGIM 算法中的查詢應(yīng)答 118
4.6.5 DGIM 條件的保持 119
4.6.6 降低錯(cuò)誤率 120
4.6.7 窗口內(nèi)計(jì)數(shù)問題的擴(kuò)展 120
4.6.8 習(xí)題 121
4.7 衰減窗口 121
4.7.1 最常見元素問題 121
4.7.2 衰減窗口的定義 122
4.7.3 最流行元素的發(fā)現(xiàn) 123
4.8 小結(jié) 123
4.9 參考文獻(xiàn) 124
第5 章 鏈接分析 126
5.1 PageRank 126
5.1.1 早期的搜索引擎及詞項(xiàng)作弊 126
5.1.2 PageRank 的定義 128
5.1.3 Web 結(jié)構(gòu) 130
5.1.4 避免終止點(diǎn) 132
5.1.5 采集器陷阱及“抽稅”法 134
5.1.6 PageRank 在搜索引擎中的使用 136
5.1.7 習(xí)題 136
5.2 PageRank 的快速計(jì)算 137
5.2.1 轉(zhuǎn)移矩陣的表示 137
5.2.2 基于MapReduce 的PageRank迭代計(jì)算 138
5.2.3 結(jié)果向量合并時(shí)的組合器使用 139
5.2.4 轉(zhuǎn)移矩陣中塊的表示 140
5.2.5 其他高效的PageRank 迭代方法 141
5.2.6 習(xí)題 142
5.3 面向主題的PageRank 142
5.3.1 動機(jī) 142
5.3.2 有偏

本目錄推薦

掃描二維碼
Copyright ? 讀書網(wǎng) m.ranfinancial.com 2005-2020, All Rights Reserved.
鄂ICP備15019699號 鄂公網(wǎng)安備 42010302001612號