注冊(cè) | 登錄讀書好,好讀書,讀好書!
讀書網(wǎng)-DuShu.com
當(dāng)前位置: 首頁出版圖書科學(xué)技術(shù)工業(yè)技術(shù)自動(dòng)化技術(shù)、計(jì)算技術(shù)大數(shù)據(jù)日知錄:架構(gòu)與算法

大數(shù)據(jù)日知錄:架構(gòu)與算法

大數(shù)據(jù)日知錄:架構(gòu)與算法

定 價(jià):¥69.00

作 者: 張俊林 著
出版社: 電子工業(yè)出版社
叢編項(xiàng): 大數(shù)據(jù)叢書
標(biāo) 簽: 工業(yè)技術(shù) 自動(dòng)化技術(shù)

ISBN: 9787121241536 出版時(shí)間: 2014-09-01 包裝: 平裝
開本: 頁數(shù): 404 字?jǐn)?shù):  

內(nèi)容簡(jiǎn)介

  大數(shù)據(jù)是當(dāng)前最為流行的熱點(diǎn)概念之一,其已由技術(shù)名詞衍生到對(duì)很多行業(yè)產(chǎn)生顛覆性影響的社會(huì)現(xiàn)象,作為最明確的技術(shù)發(fā)展趨勢(shì)之一,基于大數(shù)據(jù)的各種新型產(chǎn)品必將會(huì)對(duì)每個(gè)人的日常生活產(chǎn)生日益重要的影響。本書從架構(gòu)與算法角度全面梳理了大數(shù)據(jù)存儲(chǔ)與處理的相關(guān)技術(shù)。大數(shù)據(jù)技術(shù)具有涉及的知識(shí)點(diǎn)異常眾多且正處于快速演進(jìn)發(fā)展過程中等特點(diǎn),其技術(shù)點(diǎn)包括底層的硬件體系結(jié)構(gòu)、相關(guān)的基礎(chǔ)理論、大規(guī)模數(shù)據(jù)存儲(chǔ)系統(tǒng)、分布式架構(gòu)設(shè)計(jì)、各種不同應(yīng)用場(chǎng)景下的差異化系統(tǒng)設(shè)計(jì)思路、機(jī)器學(xué)習(xí)與數(shù)據(jù)挖掘并行算法以及層出不窮的新架構(gòu)、新系統(tǒng)等。本書對(duì)眾多紛繁蕪雜的相關(guān)技術(shù)文獻(xiàn)和系統(tǒng)進(jìn)行了擇優(yōu)汰劣并系統(tǒng)性地對(duì)相關(guān)知識(shí)分門別類地進(jìn)行整理和介紹,將大數(shù)據(jù)相關(guān)技術(shù)分為大數(shù)據(jù)基礎(chǔ)理論、大數(shù)據(jù)系統(tǒng)體系結(jié)構(gòu)、大數(shù)據(jù)存儲(chǔ),以及包含批處理、流式計(jì)算、交互式數(shù)據(jù)分析、圖數(shù)據(jù)庫、并行機(jī)器學(xué)習(xí)的架構(gòu)與算法以及增量計(jì)算等技術(shù)分支在內(nèi)的大數(shù)據(jù)處理等幾個(gè)大的方向。通過這種體系化的知識(shí)梳理與講解,相信對(duì)于讀者整體系統(tǒng)地了解、吸收和掌握相關(guān)的優(yōu)秀技術(shù)有極大的幫助與促進(jìn)作用。

作者簡(jiǎn)介

  張俊林是技術(shù)書籍《這就是搜索引擎:核心技術(shù)詳解》(該書榮獲全國第十二屆輸出版優(yōu)秀圖書獎(jiǎng))的作者,目前擔(dān)任暢捷通智能平臺(tái)總監(jiān)。在此之前,張俊林曾經(jīng)在阿里巴巴搜索技術(shù)中心、百度商務(wù)搜索部鳳巢廣告平臺(tái)以及新浪微博搜索部及數(shù)據(jù)系統(tǒng)部擔(dān)任資深技術(shù)專家,新浪微博技術(shù)委員會(huì)成員,負(fù)責(zé)算法策略方向。張俊林還曾是智能信息聚合網(wǎng)站“玩聚網(wǎng)”的聯(lián)合創(chuàng)始人之一。他的研發(fā)興趣集中在:搜索技術(shù)、推薦系統(tǒng)、社交挖掘、自然語言處理與大數(shù)據(jù)算法架構(gòu)等方面,并在以上領(lǐng)域有多年工業(yè)界實(shí)踐經(jīng)驗(yàn)。張俊林本科畢業(yè)于天津大學(xué)管理學(xué)院,1999年至2004年在中科院軟件所直接攻讀博士學(xué)位,研究方向是信息檢索理論與自然語言處理,就學(xué)期間曾在ACL/COLING/IJCNLP等國際頂級(jí)會(huì)議發(fā)表多篇學(xué)術(shù)論文,另外,他在此期間領(lǐng)導(dǎo)設(shè)計(jì)的搜索系統(tǒng)曾在美國國防部DARPA主持的TREC第二屆高精度檢索系統(tǒng)評(píng)測(cè)中在17只國際高水平研究團(tuán)隊(duì)激烈競(jìng)爭(zhēng)中勝出并取得綜合排名第一名的優(yōu)異成績(jī)。

圖書目錄

第0章 當(dāng)談?wù)摯髷?shù)據(jù)時(shí)我們?cè)谡勈裁?1
0.1 大數(shù)據(jù)是什么 2
0.2 大數(shù)據(jù)之翼:技術(shù)范型轉(zhuǎn)換 4
0.3 大數(shù)據(jù)商業(yè)煉金術(shù) 6
0.4 “大數(shù)據(jù)”在路上 7
第1章 數(shù)據(jù)分片與路由 9
1.1 抽象模型 10
1.2 哈希分片(Hash Partition) 11
1.2.1 Round Robin 11
1.2.2 虛擬桶(Virtual Buckets) 12
1.2.3 一致性哈希(Consistent Hashing) 13
1.3 范圍分片(Range Partition) 18
參考文獻(xiàn) 19
第2章 數(shù)據(jù)復(fù)制與一致性 20
2.1 基本原則與設(shè)計(jì)理念 21
2.1.1 原教旨CAP主義 21
2.1.2 CAP重裝上陣(CAP Reloaded) 23
2.1.3 ACID原則 24
2.1.4 BASE原則 24
2.1.5 CAP/ACID/BASE三者的關(guān)系 25
2.1.6 冪等性(Idempotent) 26
2.2 一致性模型分類 26
2.2.1 強(qiáng)一致性 27
2.2.2 最終一致性 28
2.2.3 因果一致性 28
2.2.4 “讀你所寫”一致性 29
2.2.5 會(huì)話一致性 29
2.2.6 單調(diào)讀一致性 30
2.2.7 單調(diào)寫一致性 30
2.3 副本更新策略 30
2.3.1 同時(shí)更新 30
2.3.2 主從式更新 31
2.3.3 任意節(jié)點(diǎn)更新 32
2.4 一致性協(xié)議 32
2.4.1 兩階段提交協(xié)議(Two-Phrase Commit,2PC) 33
2.4.2 向量時(shí)鐘(Vector Clock) 38
2.4.3 RWN協(xié)議 40
2.4.4 Paxos協(xié)議 42
2.4.5 Raft協(xié)議 45
參考文獻(xiàn) 49
第3章 大數(shù)據(jù)常用的算法與數(shù)據(jù)結(jié)構(gòu) 51
3.1 布隆過濾器(Bloom Filter) 51
3.1.1 基本原理 52
3.1.2 誤判率及相關(guān)計(jì)算 52
3.1.3 改進(jìn):計(jì)數(shù)Bloom Filter 53
3.1.4 應(yīng)用 54
3.2 SkipList 55
3.3 LSM樹 58
3.4 Merkle哈希樹(Merkle Hash Tree) 62
3.4.1 Merkle樹基本原理 62
3.4.2 Dynamo中的應(yīng)用 63
3.4.3 比特幣中的應(yīng)用 63
3.5 Snappy與LZSS算法 65
3.5.1 LZSS算法 65
3.5.2 Snappy 67
3.6 Cuckoo 哈希(Cuckoo Hashing) 67
3.6.1 基本原理 68
3.6.2 應(yīng)用:SILT存儲(chǔ)系統(tǒng) 68
參考文獻(xiàn) 70
第4章 集群資源管理與調(diào)度 71
4.1 資源管理抽象模型 72
4.1.1 概念模型 72
4.1.2 通用架構(gòu) 73
4.2 調(diào)度系統(tǒng)設(shè)計(jì)的基本問題 74
4.2.1 資源異質(zhì)性與工作負(fù)載異質(zhì)性 74
4.2.2 數(shù)據(jù)局部性(Data Locality) 75
4.2.3 搶占式VS.非搶占式調(diào)度 75
4.2.4 資源分配粒度(Allocation Granularity) 76
4.2.5 餓死(Starvation)與死鎖(Dead Lock)問題 76
4.2.6 資源隔離方法 77
4.3 資源管理與調(diào)度系統(tǒng)范型 77
4.3.1 集中式調(diào)度器(Monolithic Scheduler) 78
4.3.2 兩級(jí)調(diào)度器(Two-Level Scheduler) 79
4.3.3 狀態(tài)共享調(diào)度器(Shared-State Scheduler) 79
4.4 資源調(diào)度策略 81
4.4.1 FIFO調(diào)度策略 81
4.4.2 公平調(diào)度器(Fair Scheduler) 81
4.4.3 能力調(diào)度器(Capacity Scheduler) 82
4.4.4 延遲調(diào)度策略(Delay Scheduling) 82
4.4.5 主資源公平調(diào)度策略(Dominant Resource Fair Scheduling) 82
4.5 Mesos 84
4.6 YARN 87
參考文獻(xiàn) 90
第5章 分布式協(xié)調(diào)系統(tǒng) 91
5.1 Chubby鎖服務(wù) 92
5.1.1 系統(tǒng)架構(gòu) 93
5.1.2 數(shù)據(jù)模型 94
5.1.3 會(huì)話與KeepAlive機(jī)制 95
5.1.4 客戶端緩存 95
5.2 ZooKeeper 96
5.2.1 體系結(jié)構(gòu) 96
5.2.2 數(shù)據(jù)模型(Data Model) 97
5.2.3 API 98
5.2.4 ZooKeeper的典型應(yīng)用場(chǎng)景 98
5.2.5 ZooKeeper的實(shí)際應(yīng)用 103
參考文獻(xiàn) 104
第6章 分布式通信 106
6.1 序列化與遠(yuǎn)程過程調(diào)用框架 107
6.1.1 Protocol Buffer與Thrift 108
6.1.2 Avro 109
6.2 消息隊(duì)列 110
6.2.1 常見的消息隊(duì)列系統(tǒng) 110
6.2.2 Kafka 111
6.3 應(yīng)用層多播通信(Application-Level Multi-Broadcast) 114
6.3.1 概述 114
6.3.2 Gossip協(xié)議 115
參考文獻(xiàn) 118
第7章 數(shù)據(jù)通道 120
7.1 Log數(shù)據(jù)收集 120
7.1.1 Chukwa 121
7.1.2 Scribe 122
7.2 數(shù)據(jù)總線 123
7.2.1 Databus 125
7.2.2 Wormhole 127
7.3 數(shù)據(jù)導(dǎo)入/導(dǎo)出 128
參考文獻(xiàn) 129
第8章 分布式文件系統(tǒng) 131
8.1 Google文件系統(tǒng)(GFS) 132
8.1.1 GFS設(shè)計(jì)原則 132
8.1.2 GFS整體架構(gòu) 133
8.1.3 GFS主控服務(wù)器 134
8.1.4 系統(tǒng)交互行為 136
8.1.5 Colossus 137
8.2 HDFS 138
8.2.1 HDFS整體架構(gòu) 139
8.2.2 HA方案 140
8.2.3 NameNode 聯(lián)盟 143
8.3 HayStack存儲(chǔ)系統(tǒng) 145
8.3.1 HayStack整體架構(gòu) 146
8.3.2 目錄服務(wù) 147
8.3.3 HayStack緩存 148
8.3.4 HayStack存儲(chǔ)系統(tǒng)的實(shí)現(xiàn) 148
8.4 文件存儲(chǔ)布局 150
8.4.1 行式存儲(chǔ) 151
8.4.2 列式存儲(chǔ) 151
8.4.3 混合式存儲(chǔ) 156
8.5 糾刪碼(Erasure Code) 158
8.5.1 Reed-Solomon算法 159
8.5.2 LRC編碼 164
8.5.3 HDFS-RAID架構(gòu) 166
參考文獻(xiàn) 166
第9章 內(nèi)存KV數(shù)據(jù)庫 168
9.1 RAMCloud 169
9.1.1 RAMCloud整體架構(gòu) 169
9.1.2 數(shù)據(jù)副本管理與數(shù)據(jù)恢復(fù) 170
9.2 Redis 172
9.3 MemBase 173
參考文獻(xiàn) 175
第10章 列式數(shù)據(jù)庫 176
10.1 BigTable 177
10.1.1 BigTable的數(shù)據(jù)模型 177
10.1.2 BigTable的整體結(jié)構(gòu) 178
10.1.3 BigTable的管理數(shù)據(jù) 179
10.1.4 主控服務(wù)器(Master Server) 181
10.1.5 子表服務(wù)器(Tablet Server) 182
10.2 PNUTS存儲(chǔ)系統(tǒng) 186
10.2.1 PNUTS的整體架構(gòu) 186
10.2.2 存儲(chǔ)單元 187
10.2.3 子表控制器與數(shù)據(jù)路由器 187
10.2.4 雅虎消息代理 188
10.2.5 數(shù)據(jù)一致性 189
10.3 Megastore 190
10.3.1 實(shí)體群組切分 191
10.3.2 數(shù)據(jù)模型 192
10.3.3 數(shù)據(jù)讀/寫與備份 193
10.4 Spanner 194
10.4.1 SpanServer軟件棧 195
10.4.2 數(shù)據(jù)模型 196
10.4.3 TrueTime 196
參考文獻(xiàn) 197
第11章 大規(guī)模批處理系統(tǒng) 199
11.1 MapReduce計(jì)算模型與架構(gòu) 200
11.1.1 計(jì)算模型 201
11.1.2 系統(tǒng)架構(gòu) 203
11.1.3 MapReduce計(jì)算的特點(diǎn)及不足 206
11.2 MapReduce計(jì)算模式 206
11.2.1 求和模式(Summarization Pattern) 207
11.2.2 過濾模式(Filtering Pattern) 208
11.2.3 組織數(shù)據(jù)模式(Data Organization Pattern) 210
11.2.4 Join模式(Join Pattern) 212
11.3 DAG計(jì)算模型 214
11.3.1 DAG計(jì)算系統(tǒng)的三層結(jié)構(gòu) 214
11.3.2 Dryad 215
11.3.3 FlumeJava和Tez 217
參考文獻(xiàn) 218
第12章 流式計(jì)算 219
12.1 流式計(jì)算系統(tǒng)架構(gòu) 222
12.1.1 主從架構(gòu) 222
12.1.2 P2P架構(gòu) 223
12.1.3 Samza架構(gòu) 224
12.2 DAG拓?fù)浣Y(jié)構(gòu) 224
12.2.1 計(jì)算節(jié)點(diǎn) 225
12.2.2 數(shù)據(jù)流 226
12.2.3 拓?fù)浣Y(jié)構(gòu) 226
12.3 送達(dá)保證(Delivery Guarantees) 229
12.3.1 Storm的送達(dá)保證機(jī)制 230
12.3.2 MillWheel的“恰好送達(dá)一次”機(jī)制 233
12.4 狀態(tài)持久化 234
12.4.1 容錯(cuò)的三種模式 234
12.4.2 Storm的狀態(tài)持久化 236
12.4.3 MillWheel和Samza的狀態(tài)持久化 237
參考文獻(xiàn) 238
第13章 交互式數(shù)據(jù)分析 240
13.1 Hive系數(shù)據(jù)倉庫 242
13.1.1 Hive 242
13.1.2 StingerInitiative 250
13.2 Shark系數(shù)據(jù)倉庫 251
13.2.1 Shark架構(gòu) 252
13.2.2 部分DAG執(zhí)行引擎(PDE) 253
13.2.3 數(shù)據(jù)共同分片 254
13.3 Dremel系數(shù)據(jù)倉庫 254
13.3.1 Dremel 255
13.3.2 PowerDrill 258
13.3.3 Impala 261
13.3.4 Presto 264
13.4 混合系數(shù)據(jù)倉庫 265
參考文獻(xiàn) 269
第14章 圖數(shù)據(jù)庫:架構(gòu)與算法 271
14.1 在線查詢類圖數(shù)據(jù)庫 272
14.1.1 三層結(jié)構(gòu) 272
14.1.2 TAO圖數(shù)據(jù)庫 273
14.2 常見圖挖掘問題 277
14.2.1 PageRank計(jì)算 278
14.2.2 單源最短路徑(Single Source Shortest Path) 278
14.2.3 二部圖最大匹配 279
14.3 離線挖掘數(shù)據(jù)分片 279
14.3.1 切邊法(Edge-Cut) 280
14.3.2 切點(diǎn)法(Vertex-Cut) 282
14.4 離線挖掘計(jì)算模型 284
14.4.1 以節(jié)點(diǎn)為中心的編程模型 284
14.4.2 GAS編程模型 285
14.4.3 同步執(zhí)行模型 286
14.4.4 異步執(zhí)行模型 290
14.5 離線挖掘圖數(shù)據(jù)庫 292
14.5.1 Pregel 292
14.5.2 Giraph 299
14.5.3 GraphChi 301
14.5.4 PowerGraph 307
參考文獻(xiàn) 311
第15章 機(jī)器學(xué)習(xí):范型與架構(gòu) 313
15.1 分布式機(jī)器學(xué)習(xí) 314
15.1.1 機(jī)器學(xué)習(xí)簡(jiǎn)介 314
15.1.2 數(shù)據(jù)并行VS.模型并行 316
15.2 分布式機(jī)器學(xué)習(xí)范型 317
15.2.1 三種范型 318
15.2.2 MapReduce迭代計(jì)算模型 319
15.2.3 BSP計(jì)算模型 321
15.2.4 SSP模型 323
15.3 分布式機(jī)器學(xué)習(xí)架構(gòu) 324
15.3.1 MapReduce系列 325
15.3.2 Spark及MLBase 327
15.3.3 參數(shù)服務(wù)器(Parameter Server) 332
參考文獻(xiàn) 335
第16章 機(jī)器學(xué)習(xí):分布式算法 337
16.1 計(jì)算廣告:邏輯回歸 338
16.1.1 邏輯回歸(Logistic Regression,LR) 338
16.1.2 并行隨機(jī)梯度下降(Parallel Stochastic Gradient Descent) 341
16.1.3 批學(xué)習(xí)并行邏輯回歸 341
16.2 推薦系統(tǒng):矩陣分解 344
16.2.1 矩陣分解方法 344
16.2.2 ALS-WR算法 346
16.2.3 并行版ALS-WR算法 347
16.3 搜索引擎:機(jī)器學(xué)習(xí)排序 347
16.3.1 機(jī)器學(xué)習(xí)排序簡(jiǎn)介 348
16.3.2 LambdaMART 349
16.3.3 分布式LambdaMART 351
16.4 自然語言處理:文檔相似性計(jì)算 352
16.5 社交挖掘:譜聚類 355
16.5.1 社交挖掘?qū)嵗?355
16.5.2 譜聚類 356
16.5.3 并行版譜聚類 358
16.6 深度學(xué)習(xí):DistBelief 358
16.6.1 深度學(xué)習(xí)簡(jiǎn)介 359
16.6.2 DistBelief 360
參考文獻(xiàn) 364
第17章 增量計(jì)算 366
17.1 增量計(jì)算模式 367
17.1.1 兩種計(jì)算模式 367
17.1.2 Hadoop平臺(tái)下增量計(jì)算的一般模式 368
17.2 Percolator 370
17.2.1 事務(wù)支持 371
17.2.2 “觀察/通知”體系結(jié)構(gòu) 373
17.3 Kineograph 374
17.3.1 整體架構(gòu) 375
17.3.2 增量計(jì)算機(jī)制 375
17.4 DryadInc 376
參考文獻(xiàn) 377
附錄A 硬件體系結(jié)構(gòu)及常用性能指標(biāo) 378
附錄B 大數(shù)據(jù)必讀文獻(xiàn) 380

本目錄推薦

掃描二維碼
Copyright ? 讀書網(wǎng) m.ranfinancial.com 2005-2020, All Rights Reserved.
鄂ICP備15019699號(hào) 鄂公網(wǎng)安備 42010302001612號(hào)