注冊(cè) | 登錄讀書好,好讀書,讀好書!
讀書網(wǎng)-DuShu.com
當(dāng)前位置: 首頁(yè)出版圖書科學(xué)技術(shù)計(jì)算機(jī)/網(wǎng)絡(luò)數(shù)據(jù)庫(kù)尋路大數(shù)據(jù):海量數(shù)據(jù)與大規(guī)模分析

尋路大數(shù)據(jù):海量數(shù)據(jù)與大規(guī)模分析

尋路大數(shù)據(jù):海量數(shù)據(jù)與大規(guī)模分析

定 價(jià):¥59.00

作 者: (美)Michael Manoochehri(邁克爾·馬諾切里)著; 戴志偉,許楊毅,鄢博,陳冠誠(chéng) 譯
出版社: 電子工業(yè)出版社
叢編項(xiàng):
標(biāo) 簽: 計(jì)算機(jī)/網(wǎng)絡(luò) 數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘 數(shù)據(jù)庫(kù)

ISBN: 9787121244728 出版時(shí)間: 2014-11-01 包裝: 平裝
開本: 16開 頁(yè)數(shù): 244 字?jǐn)?shù):  

內(nèi)容簡(jiǎn)介

  這是一個(gè)數(shù)據(jù)爆發(fā)的時(shí)代,更是一個(gè)數(shù)據(jù)技術(shù)爆發(fā)的時(shí)代,各行各業(yè)都在因此進(jìn)行深刻的變革。如何從眾多的數(shù)據(jù)技術(shù)中選擇正確的工具、如何使用這些工具從海量數(shù)據(jù)中挖掘出有價(jià)值的東西,無(wú)疑是非常具有挑戰(zhàn)性的問題?!秾ぢ反髷?shù)據(jù):海量數(shù)據(jù)與大規(guī)模分析》作者結(jié)合自己在Google 大數(shù)據(jù)平臺(tái)工作的豐富經(jīng)驗(yàn),闡述了數(shù)據(jù)技術(shù)的方方面面。從數(shù)據(jù)收集、共享到數(shù)據(jù)存儲(chǔ),從分布式數(shù)據(jù)平臺(tái)、分析型數(shù)據(jù)庫(kù)到數(shù)據(jù)可視化,從數(shù)據(jù)工作流構(gòu)建到大規(guī)模數(shù)據(jù)分析,作者不僅進(jìn)行了全面而深入的介紹,更覆蓋了目前流行的各種數(shù)據(jù)技術(shù)與工具,同時(shí)對(duì)技術(shù)選型提出了指導(dǎo)性的建議。最后,作者對(duì)數(shù)據(jù)挑戰(zhàn)的非技術(shù)因素進(jìn)行了深刻的分析,并對(duì)數(shù)據(jù)技術(shù)的發(fā)展趨勢(shì)進(jìn)行了展望,引人深思?!秾ぢ反髷?shù)據(jù):海量數(shù)據(jù)與大規(guī)模分析》對(duì)企業(yè)管理者、技術(shù)經(jīng)理、數(shù)據(jù)分析師、數(shù)據(jù)應(yīng)用開發(fā)人員和相關(guān)從業(yè)者都有很好的參考價(jià)值。決策者可以從中看到技術(shù)趨勢(shì),把握時(shí)代發(fā)展脈搏;數(shù)據(jù)分析人員可以看到經(jīng)驗(yàn)的總結(jié)和工具的應(yīng)用;其他從業(yè)者可以從中了解數(shù)據(jù)技術(shù)所涉及的各個(gè)方面。

作者簡(jiǎn)介

  作者M(jìn)ichael Manoochehri 是個(gè)企業(yè)家、作家和樂觀主義者。憑借自己與企業(yè)、研究機(jī)構(gòu)和非營(yíng)利性機(jī)構(gòu)多年的合作經(jīng)驗(yàn),他力圖讓可擴(kuò)展數(shù)據(jù)分析變得更加廉價(jià)和易獲取。Michael 是Google 云平臺(tái)開發(fā)者關(guān)系組的成員之一,關(guān)注云計(jì)算和數(shù)據(jù)開發(fā)者產(chǎn)品,例如Google BigQuery。此外,Michael 是技術(shù)博客ProgrammableWeb.com的作者之一,曾在烏干達(dá)農(nóng)村地區(qū)研究移動(dòng)電話的使用,擁有UC Berkeley 信息學(xué)院的信息管理與系統(tǒng)文學(xué)碩士學(xué)位。譯者陳冠誠(chéng),并行實(shí)驗(yàn)室創(chuàng)建者。在導(dǎo)師Prof. Per Stenström指導(dǎo)下完成碩士畢業(yè)設(shè)計(jì)“關(guān)于并行程序中鎖競(jìng)爭(zhēng)的性能分析”。2011年加入IBM中國(guó)研究院系統(tǒng)組,從事云計(jì)算系統(tǒng)架構(gòu)、海量數(shù)據(jù)處理等相關(guān)研究工作。

圖書目錄

第1 部分 大數(shù)據(jù)時(shí)代指引 1
第1 章 數(shù)據(jù)成功四原則 3
1.1 當(dāng)數(shù)據(jù)成為一件“大”事 3
1.2 數(shù)據(jù)和單臺(tái)服務(wù)器 4
1.3 大數(shù)據(jù)的權(quán)衡 5
1.3.1 構(gòu)建可(限)擴(kuò)展的解決方案 6
1.3.2 構(gòu)建可(在互聯(lián)網(wǎng)上)共享數(shù)據(jù)的系統(tǒng) 7
1.3.3 構(gòu)建解決方案,而非基礎(chǔ)設(shè)施 8
1.3.4 關(guān)注從數(shù)據(jù)中解放價(jià)值 8
1.4 大數(shù)據(jù)流水線剖析 9
1.5 終極數(shù)據(jù)庫(kù) 10
1.6 總結(jié) 10
第2 部分 收集和共享海量數(shù)據(jù) 13
第2 章 托管和共享TB 級(jí)原始數(shù)據(jù) 15
2.1 文件之殤 16
2.1.1 共享大量文件的挑戰(zhàn) 16
2.2 存儲(chǔ):基礎(chǔ)設(shè)施即服務(wù) 17
2.2.1 網(wǎng)絡(luò)很慢 18
2.3 選擇合適的數(shù)據(jù)格式 18
2.3.1 XML :數(shù)據(jù),描述你自己 20
2.3.2 JSON :程序員的選擇 21
2.4 字符編碼 22
2.4.1 文件轉(zhuǎn)換 24
XXII 目錄
2.5 移動(dòng)中的數(shù)據(jù):數(shù)據(jù)序列化格式 25
2.5.1 Apache Thrift 和Protocol Buffers 26
2.6 總結(jié) 27
第3 章 構(gòu)建基于NoSQL 的Web 應(yīng)用采集眾包數(shù)據(jù) 29
3.1 關(guān)系型數(shù)據(jù)庫(kù):命令及控制 30
3.1.1 關(guān)系數(shù)據(jù)庫(kù)的ACID 測(cè)試 32
3.2 當(dāng)關(guān)系型數(shù)據(jù)庫(kù)遇上互聯(lián)網(wǎng) 33
3.2.1 CAP 原理與BASE 34
3.3 非關(guān)系型數(shù)據(jù)庫(kù)的模式 36
3.3.1 鍵- 值數(shù)據(jù)庫(kù) 36
3.3.2 文檔存儲(chǔ) 38
3.4 為寫入性能優(yōu)化:Redis 40
3.5 在多個(gè)Redis 實(shí)例上分片 43
3.5.1 使用Twemproxy 自動(dòng)分區(qū) 44
3.5.2 Redis 的替代選項(xiàng) 46
3.6 NewSQL :Codd 歸來 46
3.7 總結(jié) 47
第4 章 解決數(shù)據(jù)孤島問題的策略 49
4.1 堆滿術(shù)語(yǔ)的倉(cāng)庫(kù) 49
4.1.1 實(shí)踐中的問題 51
4.1.2 數(shù)據(jù)合規(guī)與安全規(guī)劃 52
4.1.3 走進(jìn)數(shù)據(jù)倉(cāng)庫(kù) 53
4.1.4 數(shù)據(jù)倉(cāng)庫(kù)的口訣:抽取、轉(zhuǎn)換和加載 54
4.2 Hadoop :數(shù)據(jù)倉(cāng)庫(kù)中的大象 55
4.3 數(shù)據(jù)孤島也可能是個(gè)優(yōu)點(diǎn) 55
4.3.1 專注于數(shù)據(jù)問題,而不是技術(shù) 56
4.3.2 鼓勵(lì)員工提出他們自己的問題 57
4.3.3 投資溝通數(shù)據(jù)孤島的技術(shù) 57
4.4 融合:數(shù)據(jù)孤島的終結(jié) 58
目錄XXIII
4.4.1 Luhn 的商業(yè)智能系統(tǒng)是否能成為現(xiàn)實(shí) 59
4.5 總結(jié) 59
第3 部分 數(shù)據(jù)探究 61
第5 章 使用Hadoop、Hive 和Shark 探索大規(guī)模數(shù)據(jù)集 63
5.1 什么是數(shù)據(jù)倉(cāng)庫(kù) 64
5.2 Apache Hive :在Hadoop 上進(jìn)行交互式查詢 66
5.2.1 Hive 用例 66
5.2.2 Hive 實(shí)戰(zhàn) 67
5.2.3 在Hive 中使用其他數(shù)據(jù)源 71
5.3 Shark :以內(nèi)存的速度進(jìn)行查詢 72
5.4 云中的數(shù)據(jù)倉(cāng)庫(kù) 73
5.5 總結(jié) 74
第6 章 使用Google BigQuery 構(gòu)建數(shù)據(jù)信息中心 77
6.1 分析型數(shù)據(jù)庫(kù) 78
6.2 Dremel :均貧富 79
6.2.1 Dremel 與MapReduce 的不同之處 80
6.3 BigQuery :數(shù)據(jù)分析即服務(wù) 81
6.3.1 BigQuery 的查詢語(yǔ)言 82
6.4 建造自己的大數(shù)據(jù)信息面板 83
6.4.1 授權(quán)訪問BigQuery API 84
6.4.2 運(yùn)行查詢并獲取結(jié)果 87
6.4.3 緩存查詢結(jié)果 88
6.4.4 添加可視化圖形 89
6.5 分析型查詢引擎的未來 91
6.6 總結(jié) 91
第7 章 探索大數(shù)據(jù)的可視化策略 93
7.1 警世良言:將數(shù)據(jù)翻譯成故事 94
7.2 人類尺度 VS 機(jī)器尺度 97
XXIV 目錄
7.2.1 交互性 97
7.3 開發(fā)交互式數(shù)據(jù)應(yīng)用 98
7.3.1 使用R 和ggplot2 實(shí)現(xiàn)交互式可視化 98
7.3.2 matplotlib: Python 的2D 圖形庫(kù) 100
7.3.3 D3.js :用于Web 的交互式可視化庫(kù) 100
7.4 總結(jié) 104
第4 部分 構(gòu)建數(shù)據(jù)流水線 107
第8 章 整合:MapReduce 數(shù)據(jù)流水線 109
8.1 數(shù)據(jù)流水線是什么 109
8.1.1 正確的工具 110
8.2 使用Hadoop Streaming 搭建數(shù)據(jù)流水線 111
8.2.1 MapReduce 和數(shù)據(jù)轉(zhuǎn)換 111
8.2.2 最簡(jiǎn)單的流水線:stdin 到stdout 113
8.3 單步MapReduce 變換 115
8.3.1 從原始NVSS 數(shù)據(jù)中抽取相關(guān)信息:map 階段 116
8.3.2 合計(jì)每月出生數(shù):reducer 階段 117
8.3.3 在本地測(cè)試MapReduce 流水線 118
8.3.4 在Hadoop 集群上運(yùn)行我們的MapReduce 作業(yè) 119
8.4 降低復(fù)雜性:Hadoop 上Python 的MapReduce 框架 120
8.4.1 使用mrjob 重寫Hadoop Streaming 示例 121
8.4.2 建造一個(gè)多步流水線 122
8.4.3 在Elastic MapReduce 上運(yùn)行mrjob 腳本 124
8.4.4 其他基于Python 的MapReduce 框架 125
8.5 總結(jié) 125
第9 章 使用Pig 和Cascading 構(gòu)建數(shù)據(jù)轉(zhuǎn)換工作流 127
9.1 大規(guī)模數(shù)據(jù)工作流實(shí)戰(zhàn) 128
9.2 多步MapReduce 轉(zhuǎn)換真復(fù)雜 128
9.2.1 Apache Pig :拒絕復(fù)雜 129
目錄XXV
9.2.2 使用交互式Grunt shell 運(yùn)行Pig 130
9.2.3 過濾和優(yōu)化數(shù)據(jù)工作流 132
9.2.4 以批處理模式運(yùn)行Pig 腳本 132
9.3 Cascading :構(gòu)建健壯的數(shù)據(jù)工作流應(yīng)用 133
9.3.1 以source 和sink 的方式思考 134
9.3.2 構(gòu)建Cascading 應(yīng)用 135
9.3.3 創(chuàng)建一個(gè)Cascade :一個(gè)簡(jiǎn)單的JOIN 例子 136
9.3.4 在Hadoop 集群上部署Cascading 應(yīng)用 138
9.4 何時(shí)選擇Pig 或Cascading 139
9.5 總結(jié) 140
第5 部分 基于大規(guī)模數(shù)據(jù)集的機(jī)器學(xué)習(xí) 141
第10 章 使用Mahout 構(gòu)建數(shù)據(jù)分類系統(tǒng) 143
10.1 機(jī)器能否預(yù)測(cè)未來 144
10.2 機(jī)器學(xué)習(xí)的挑戰(zhàn) 144
10.2.1 貝葉斯分類 146
10.2.2 聚類 146
10.2.3 推薦引擎 148
10.3 Apache Mahout :可伸縮的機(jī)器學(xué)習(xí)工具 148
10.3.1 使用Mahout 進(jìn)行文本分類 149
10.4 MLbase :分布式機(jī)器學(xué)習(xí)框架 152
10.5 總結(jié) 152
第6 部分 基于大規(guī)模數(shù)據(jù)集的統(tǒng)計(jì)分析 155
第11 章 使用R 語(yǔ)言處理大數(shù)據(jù)集 157
11.1 統(tǒng)計(jì)學(xué)為什么性感 158
11.1.1 R 處理大型數(shù)據(jù)集的局限性 159
11.1.2 R 的數(shù)據(jù)幀和矩陣 161
XXVI 目錄
11.2 處理大數(shù)據(jù)集的策略 162
11.2.1 大矩陣處理:bigmemory 和biganalytics 162
11.2.2 ff: 使用大于內(nèi)存的數(shù)據(jù)幀 164
11.2.3 biglm :大規(guī)模數(shù)據(jù)集的線性回歸 165
11.2.4 RHadoop: 使用R 訪問Apache Hadoop 166
11.3 總結(jié) 168
第12 章 使用Python 和Pandas 構(gòu)建分析工作流 171
12.1 數(shù)據(jù)樂園中自在的蟒蛇――Python 172
12.1.1 為統(tǒng)計(jì)性計(jì)算選擇一門語(yǔ)言 172
12.1.2 擴(kuò)展現(xiàn)有代碼 173
12.1.3 工具和測(cè)試 174
12.2 用于數(shù)據(jù)處理的Python 庫(kù) 174
12.2.1 NumPy 175
12.2.2 SciPy :Python 的科學(xué)計(jì)算庫(kù) 176
12.2.3 數(shù)據(jù)分析庫(kù)Pandas 178
12.3 構(gòu)建更復(fù)雜的工作流 182
12.3.1 處理?yè)p壞或丟失的記錄 184
12.4 iPython :科學(xué)計(jì)算工具鏈的最后一環(huán) 185
12.4.1 在集群上并行執(zhí)行iPython 186
12.5 總結(jié) 190
第7 部分 展望未來 191
第13 章 何時(shí)選擇自制、購(gòu)買或外包 193
13.1 功能重合的解決方案 193
13.2 理解你的數(shù)據(jù)問題 195
13.3 自制還是購(gòu)買問題的參考手冊(cè) 197
13.3.1 你已經(jīng)對(duì)哪些技術(shù)有所投入 197
13.3.2 從小處著手 198
13.3.3 規(guī)劃時(shí)考慮可擴(kuò)展性 198
目錄XXVII
13.4 私人數(shù)據(jù)中心 199
13.5 了解開源的成本 201
13.6 一切皆服務(wù) 202
13.7 總結(jié) 202
第14 章 未來:數(shù)據(jù)科技的幾個(gè)趨勢(shì) 205
14.1 Hadoop :攪局者與被攪局者 206
14.2 一切皆在云中 208
14.3 數(shù)據(jù)科學(xué)家的興衰 209
14.4 融合:終極數(shù)據(jù)庫(kù) 212
14.5 文化融合 213
14.6 總結(jié) 214

本目錄推薦

掃描二維碼
Copyright ? 讀書網(wǎng) m.ranfinancial.com 2005-2020, All Rights Reserved.
鄂ICP備15019699號(hào) 鄂公網(wǎng)安備 42010302001612號(hào)