大數(shù)據(jù)挖掘·大數(shù)據(jù)：互聯(lián)網(wǎng)大規(guī)模數(shù)據(jù)挖掘與分布式處理+數(shù)據(jù)挖掘?qū)д摚ㄍ暾?套裝共2冊）

定　價：￥128.00

作　者：	（美） Anand Rajaraman，（美） Jeffrey David Ullman，（美） Pang-Ning Tan，等著王斌，范明，范宏建，等譯
出版社：	人民郵電出版社
叢編項：
標　簽：	暫缺

購買這本書可以去

京東 (￥88.30)

ISBN：	9787115000453	出版時間：	2014-01-01	包裝：	平裝
開本：	16開	頁數(shù)：	721	字數(shù)：

內(nèi)容簡介

　　《大數(shù)據(jù)挖掘·大數(shù)據(jù)：互聯(lián)網(wǎng)大規(guī)模數(shù)據(jù)挖掘與分布式處理+數(shù)據(jù)挖掘?qū)д摚ㄍ暾妫ㄌ籽b共2冊）》源自作者在斯坦福大學教授多年的“web挖掘”課程材料，主要關(guān)注大數(shù)據(jù)環(huán)境下數(shù)據(jù)挖掘的實際算法。書中分析了海量數(shù)據(jù)集數(shù)據(jù)挖掘常用的算法，介紹了目前web應(yīng)用的許多重要話題。

作者簡介

暫缺《大數(shù)據(jù)挖掘·大數(shù)據(jù)：互聯(lián)網(wǎng)大規(guī)模數(shù)據(jù)挖掘與分布式處理+數(shù)據(jù)挖掘?qū)д摚ㄍ暾?套裝共2冊）》作者簡介

圖書目錄

第1章數(shù)據(jù)挖掘基本概念
1.1 數(shù)據(jù)挖掘的定義
1.1.1 統(tǒng)計建模
1.1.2 機器學習
1.1.3 建模的計算方法
1.1.4 數(shù)據(jù)匯總
1.1.5 特征抽取
1.2 數(shù)據(jù)挖掘的統(tǒng)計限制
1.2.1 整體情報預(yù)警
1.2.2 邦弗朗尼原理
1.2.3 邦弗朗尼原理的一個例子
1.2.4 習題
1.3 相關(guān)知識
1.3.1 詞語在文檔中的重要性
1.3.2 哈希函數(shù)
1.3.3 索引
1.3.4 二級存儲器
1.3.5 自然對數(shù)的底e
1.3.6 冪定律
1.3.7 習題
1.4 本書概要
1.5 小結(jié)
1.6 參考文獻
第2章大規(guī)模文件系統(tǒng)及map-reduce
2.1 分布式文件系統(tǒng)
2.1.1 計算節(jié)點的物理結(jié)構(gòu)
2.1.2 大規(guī)模文件系統(tǒng)的結(jié)構(gòu)
2.2 map-reduce
2.2.1 map任務(wù)
2.2.2 分組和聚合
2.2.3 reduce任務(wù)
2.2.4 組合器
2.2.5 map-reduce的執(zhí)行細節(jié)
2.2.6 節(jié)點失效的處理
2.3 使用map-reduce的算法
2.3.1 基于map-reduce的矩陣—向量乘法實現(xiàn)
2.3.2 向量v無法放入內(nèi)存時的處理
2.3.3 關(guān)系代數(shù)運算
2.3.4 基于map-reduce的選擇運算
2.3.5 基于map-reduce的投影運算
2.3.6 基于map-reduce的并、交和差運算
2.3.7 基于map-reduce的自然連接運算
2.3.8 一般性的連接算法
2.3.9 基于map-reduce的分組和聚合運算
2.3.10 矩陣乘法
2.3.11 基于單步map-reduce的矩陣乘法
2.3.12 習題
2.4 map-reduce的擴展
2.4.1 工作流系統(tǒng)
2.4.2 map-reduce的遞歸擴展版本
2.4.3 pregel系統(tǒng)
2.4.4 習題
2.5 集群計算算法的效率問題
2.5.1 集群計算的通信開銷模型
2.5.2 實耗通信開銷
2.5.3 多路連接
2.5.4 習題
2.6 小結(jié)
2.7 參考文獻
第3章相似項發(fā)現(xiàn)
3.1 近鄰搜索的應(yīng)用
3.1.1 集合的jaccard相似度
3.1.2 文檔的相似度
3.1.3 協(xié)同過濾——一個集合相似問題
3.1.4 習題
3.2 文檔的shingling
3.2.1 k-shingle
3.2.2 shingle大小的選擇
3.2.3 對shingle進行哈希
3.2.4 基于詞的shingle
3.2.5 習題
3.3 保持相似度的集合摘要表示
3.3.1 集合的矩陣表示
3.3.2 最小哈希
3.3.3 最小哈希及jaccard相似度
3.3.4 最小哈希簽名
3.3.5 最小哈希簽名的計算
3.3.6 習題
3.4 文檔的局部敏感哈希算法
3.4.1 面向最小哈希簽名的lsh
3.4.2 行條化策略的分析
3.4.3 上述技術(shù)的綜合
3.4.4 習題
3.5 距離測度
3.5.1 距離測度的定義
3.5.2 歐氏距離
3.5.3 jaccard距離
3.5.4 余弦距離
3.5.5 編輯距離
3.5.6 海明距離
3.5.7 習題
3.6 局部敏感函數(shù)理論
3.6.1 局部敏感函數(shù)
3.6.2 面向jaccard距離的局部敏感函數(shù)族
3.6.3 局部敏感函數(shù)族的放大處理
3.6.4 習題
3.7 面向其他距離測度的lsh函數(shù)族
3.7.1 面向海明距離的lsh函數(shù)族
3.7.2 隨機超平面和余弦距離
3.7.3 梗概
3.7.4 面向歐氏距離的lsh函數(shù)族
3.7.5 面向歐氏空間的更多l(xiāng)sh函數(shù)族
3.7.6 習題
3.8 lsh函數(shù)的應(yīng)用
3.8.1 實體關(guān)聯(lián)
3.8.2 一個實體關(guān)聯(lián)的例子
3.8.3 記錄匹配的驗證
3.8.4 指紋匹配
3.8.5 適用于指紋匹配的lsh函數(shù)族
3.8.6 相似新聞報道檢測
3.8.7 習題
3.9 面向高相似度的方法
3.9.1 相等項發(fā)現(xiàn)
3.9.2 集合的字符串表示方法
3.9.3 基于長度的過濾
3.9.4 前綴索引
3.9.5 位置信息的使用
3.9.6 使用位置和長度信息的索引
3.9.7 習題
3.10 小結(jié)
3.11 參考文獻
第4章數(shù)據(jù)流挖掘
4.1 流數(shù)據(jù)模型
4.1.1 一個數(shù)據(jù)流管理系統(tǒng)
4.1.2 流數(shù)據(jù)源的例子
4.1.3 流查詢
4.1.4 流處理中的若干問題
4.2 流當中的數(shù)據(jù)抽樣
4.2.1 一個富于啟發(fā)性的例子
4.2.2 代表性樣本的獲取
4.2.3 一般的抽樣問題
4.2.4 樣本規(guī)模的變化
4.2.5 習題
4.3 流過濾
4.3.1 一個例子
4.3.2 布隆過濾器
4.3.3 布隆過濾方法的分析
4.3.4 習題
4.4 流中獨立元素的數(shù)目統(tǒng)計
4.4.1 獨立元素計數(shù)問題
4.4.2 fm算法
4.4.3 組合估計
4.4.4 空間需求
4.4.5 習題
4.5 矩估計
4.5.1 矩定義
4.5.2 二階矩估計的ams算法
4.5.3 ams算法有效的原因
4.5.4 更高階矩的估計
4.5.5 無限流的處理
4.5.6 習題
4.6 窗口內(nèi)的計數(shù)問題
4.6.1 精確計數(shù)的開銷
4.6.2 dgim算法
4.6.3 dgim算法的存儲需求
4.6.4 dgim算法中的查詢應(yīng)答
4.6.5 dgim條件的保持
4.6.6 降低錯誤率
4.6.7 窗口內(nèi)計數(shù)問題的擴展
4.6.8 習題
4.7 衰減窗口
4.7.1 最常見元素問題
4.7.2 衰減窗口的定義
4.7.3 最流行元素的發(fā)現(xiàn)
4.8 小結(jié)
4.9 參考文獻
第5章鏈接分析
5.1 pagerank
5.1.1 早期的搜索引擎及詞項作弊
5.1.2 pagerank的定義
5.1.3 web結(jié)構(gòu)
5.1.4 避免終止點
5.1.5 采集器陷阱及“抽稅”法
5.1.6 pagerank在搜索引擎中的使用
5.1.7 習題
5.2 pagerank的快速計算
5.2.1 轉(zhuǎn)移矩陣的表示
5.2.2 基于map-reduce的pagerank迭代計算
5.2.3 結(jié)果向量合并時的組合器使用
5.2.4 轉(zhuǎn)移矩陣中塊的表示
5.2.5 其他高效的pagerank迭代方法
5.2.6 習題
5.3 面向主題的pagerank
5.3.1 動機
5.3.2 有偏的隨機游走模型
5.3.3 面向主題的pagerank的使用
5.3.4 基于詞匯的主題推斷
5.3.5 習題
5.4 鏈接作弊
5.4.1 垃圾農(nóng)場的架構(gòu)
5.4.2 垃圾農(nóng)場的分析
5.4.3 與鏈接作弊的斗爭
5.4.4 trustrank
5.4.5 垃圾質(zhì)量
5.4.6 習題
5.5 導航頁和權(quán)威頁
5.5.1 hits的直觀意義
5.5.2 導航度和權(quán)威度的形式化
5.5.3 習題
5.6 小結(jié)
5.7 參考文獻
第6章頻繁項集
6.1 購物籃模型
6.1.1 頻繁項集的定義
6.1.2 頻繁項集的應(yīng)用
6.1.3 關(guān)聯(lián)規(guī)則
6.1.4 高可信度關(guān)聯(lián)規(guī)則的發(fā)現(xiàn)
6.1.5 習題
6.2 購物籃及a-priori算法
6.2.1 購物籃數(shù)據(jù)的表示
6.2.2 項集計數(shù)中的內(nèi)存使用
6.2.3 項集的單調(diào)性
6.2.4 二元組計數(shù)
6.2.5 a-priori算法
6.2.6 所有頻繁項集上的a-priori算法
6.2.7 習題
6.3 更大數(shù)據(jù)集在內(nèi)存中的處理
6.3.1 pcy算法
6.3.2 多階段算法
6.3.3 多哈希算法
6.3.4 習題
6.4 有限掃描算法
6.4.1 簡單的隨機化算法
6.4.2 抽樣算法中的錯誤規(guī)避
6.4.3 son算法
6.4.4 son算法和map-reduce
6.4.5 toivonen算法
6.4.6 toivonen算法的有效性分析
6.4.7 習題
6.5 流中的頻繁項計數(shù)
6.5.1 流的抽樣方法
6.5.2 衰減窗口中的頻繁項集
6.5.3 混合方法
6.5.4 習題
6.6 小結(jié)
6.7 參考文獻
第7章聚類
7.1 聚類技術(shù)介紹
7.1.1 點、空間和距離
7.1.2 聚類策略
7.1.3 維數(shù)災(zāi)難
7.1.4 習題
7.2 層次聚類
7.2.1 歐氏空間下的層次聚類
7.2.2 層次聚類算法的效率
7.2.3 控制層次聚類的其他規(guī)則
7.2.4 非歐空間下的層次聚類
7.2.5 習題
7.3 k-均值算法
7.3.1 k-均值算法基本知識
7.3.2 k-均值算法的簇初始化
7.3.3 選擇k的正確值
7.3.4 bfr算法
7.3.5 bfr算法中的數(shù)據(jù)處理
7.3.6 習題
7.4 cure算法
7.4.1 cure算法的初始化
7.4.2 cure算法的完成
7.4.3 習題
7.5 非歐空間下的聚類
7.5.1 grgpf算法中的簇表示
7.5.2 簇表示樹的初始化
7.5.3 grgpf算法中的點加入
7.5.4 簇的分裂及合并
7.5.5 習題
7.6 流聚類及并行化
7.6.1 流計算模型
7.6.2 一個流聚類算法
7.6.3 桶的初始化
7.6.4 桶合并
7.6.5 查詢應(yīng)答
7.6.6 并行環(huán)境下的聚類
7.6.7 習題
7.7 小結(jié)
7.8 參考文獻
第8章 web廣告
8.1 在線廣告相關(guān)問題
8.1.1 廣告機會
8.1.2 直投廣告
8.1.3 展示廣告的相關(guān)問題
8.2 在線算法
8.2.1 在線和離線算法
8.2.2 貪心算法
8.2.3 競爭率
8.2.4 習題
8.3 廣告匹配問題
8.3.1 匹配及完美匹配
8.3.2 最大匹配貪心算法
8.3.3 貪心匹配算法的競爭率
8.3.4 習題
8.4 adwords問題
8.4.1 搜索廣告的歷史
8.4.2 adwords問題的定義
8.4.3 adwords問題的貪心方法
8.4.4 balance算法
8.4.5 balance算法競爭率的一個下界
8.4.6 多投標者的balance算法
8.4.7 一般性的balance算法
8.4.8 adwords問題的最后論述
8.4.9 習題
8.5 adwords的實現(xiàn)
8.5.1 投標和搜索查詢的匹配
8.5.2 更復雜的匹配問題
8.5.3 文檔和投標之間的匹配算法
8.6 小結(jié)
8.7 參考文獻
第9章推薦系統(tǒng)
9.1 一個推薦系統(tǒng)的模型
9.1.1 效用矩陣
9.1.2 長尾現(xiàn)象
9.1.3 推薦系統(tǒng)的應(yīng)用
9.1.4 效用矩陣的填充
9.2 基于內(nèi)容的推薦
9.2.1 項模型
9.2.2 文檔的特征發(fā)現(xiàn)
9.2.3 基于tag的項特征獲取
9.2.4 項模型的表示
9.2.5 用戶模型
9.2.6 基于內(nèi)容的項推薦
9.2.7 分類算法
9.2.8 習題
9.3 協(xié)同過濾
9.3.1 相似度計算
9.3.2 相似度對偶性
9.3.3 用戶聚類和項聚類
9.3.4 習題
9.4 降維處理
9.4.1 uv分解
9.4.2 rmse
9.4.3 uv分解的增量式計算
9.4.4 對任一元素的優(yōu)化
9.4.5 一個完整uv分解算法的構(gòu)建
9.4.6 習題
9.5 netflix競賽
9.6 小結(jié)
9.7 參考文獻
索引
《數(shù)據(jù)挖掘?qū)д摚ㄍ暾妫?/div>