Hadoop MapReduce實(shí)戰(zhàn)手冊(cè)

定　價(jià)：￥49.00

作　者：	（斯里蘭卡）Srinath Perera，Thilina Gunarathne
出版社：	人民郵電出版社
叢編項(xiàng)：
標(biāo)　簽：	計(jì)算機(jī)/網(wǎng)絡(luò) 軟件工程/開發(fā)項(xiàng)目管理

購(gòu)買這本書可以去

ISBN：	9787115384379	出版時(shí)間：	2015-03-01	包裝：
開本：		頁(yè)數(shù)：		字?jǐn)?shù)：

內(nèi)容簡(jiǎn)介

　　這是一本學(xué)習(xí)Hadoop MapReduce的一站式指南，完整介紹了Hadoop生態(tài)體系，包括Hadoop平臺(tái)安裝、部署、運(yùn)維等，Hadoop生態(tài)系統(tǒng)成員Hive、Pig、HBase、Mahout等。最重要的是，書中包含豐富的示例和多樣的實(shí)際應(yīng)用場(chǎng)景，以一種簡(jiǎn)單而直接的方式呈現(xiàn)了90個(gè)實(shí)戰(zhàn)攻略，并給出一步步的指導(dǎo)。本書從獲取Hadoop并在集群中運(yùn)行講起，依次介紹了高級(jí)HDFS，高級(jí)Hadoop MapReduce管理，開發(fā)復(fù)雜的Hadoop MapReduce應(yīng)用程序，Hadoop的生態(tài)系統(tǒng)，統(tǒng)計(jì)分析，搜索與索引，聚類、推薦和尋找關(guān)聯(lián)，海量文本數(shù)據(jù)處理，云部署等內(nèi)容。

作者簡(jiǎn)介

　　作者介紹Srinath Perera是WSO2公司的高級(jí)軟件架構(gòu)師，與CTO一同全觀整個(gè)WSO2平臺(tái)架構(gòu)。同時(shí)，他也是斯里蘭卡軟件基金會(huì)的一位研究科學(xué)家，并作為訪問學(xué)者在莫勒?qǐng)D沃大學(xué)計(jì)算機(jī)科學(xué)與工程系授課。他是Apache Axis2開源軟件項(xiàng)目的聯(lián)合創(chuàng)始人，他自2002年以來一直參與Apache Web Service項(xiàng)目，并且是Apache軟件基金會(huì)和Apache Web服務(wù)項(xiàng)目PMC的成員。Srinath也是Apache Axis、Axis2和Geronimo開源項(xiàng)目的committer。他在美國(guó)印第安納大學(xué)伯明頓分校獲得博士和碩士學(xué)位，在斯里蘭卡莫勒?qǐng)D沃大學(xué)獲得了計(jì)算科學(xué)與工程學(xué)士學(xué)位。Srinath已經(jīng)撰寫了許多技術(shù)文章和同行評(píng)審的研究文章，可以從他的個(gè)人網(wǎng)站找到更多細(xì)節(jié)。他還經(jīng)常在技術(shù)會(huì)議上做演講。他長(zhǎng)期研究大規(guī)模分布式系統(tǒng)。他的日常工作與大數(shù)據(jù)技術(shù)（如Hadoop和Cassandra）結(jié)合很緊密。他還在莫勒?qǐng)D沃大學(xué)研究生班教授并行計(jì)算，主要是基于Hadoop。Thilina Gunarathne是印第安納大學(xué)信息與計(jì)算學(xué)院博士。他在使用Apache Hadoop以及大規(guī)模數(shù)據(jù)密集型計(jì)算技術(shù)方面有著豐富的經(jīng)驗(yàn)。他目前的主要工作是致力于研發(fā)在云環(huán)境執(zhí)行可擴(kuò)展的、高效的大規(guī)模數(shù)據(jù)密集型計(jì)算的技術(shù)。Thilina發(fā)表了很多論文，并且同行評(píng)審了很多分布式計(jì)算和并行計(jì)算領(lǐng)域的研究論文，包括一些在云環(huán)境擴(kuò)展MapReduce模型進(jìn)行有效的數(shù)據(jù)挖掘和數(shù)據(jù)分析的論文。Thilina經(jīng)常在學(xué)術(shù)界和工業(yè)界會(huì)議上發(fā)表演講。Thilina自2005年以來，在Apache軟件基金會(huì)下貢獻(xiàn)了若干個(gè)開源項(xiàng)目，并成為committer和PMC成員。在開始研究生學(xué)習(xí)之前，Thilina在WSO2公司擔(dān)任高級(jí)軟件工程師，專注于開源中間件開發(fā)。Thilina 2006年在斯里蘭卡莫勒?qǐng)D沃大學(xué)獲得計(jì)算機(jī)科學(xué)與工程學(xué)士學(xué)位，2009年在美國(guó)印第安納大學(xué)伯明頓分校獲得計(jì)算機(jī)科學(xué)碩士學(xué)位，2013年獲得分布式和并行計(jì)算領(lǐng)域博士學(xué)位。譯者介紹楊卓犖阿里巴巴集團(tuán)數(shù)據(jù)平臺(tái)事業(yè)部資深研發(fā)工程師。2011年起，在阿里巴巴從事Hadoop五年，集團(tuán)SQL on Hadoop負(fù)責(zé)人，Hadoop/Yarn/Hive contributor，開源軟件愛好者。

圖書目錄

目錄
第1章搭建Hadoop并在集群中運(yùn)行 1
1.1 簡(jiǎn)介 1
1.2 在你的機(jī)器上安裝Hadoop 2
1.3 寫WordCountMapReduce示例程序，打包并使用獨(dú)立的Hadoop運(yùn)行它 3
1.4 給WordCount MapReduce程序增加combiner步驟 7
1.5 安裝HDFS 8
1.6 使用HDFS監(jiān)控UI 11
1.7 HDFS的基本命令行文件操作 12
1.8 在分布式集群環(huán)境中設(shè)置Hadoop 14
1.9 在分布式集群環(huán)境中運(yùn)行WordCount程序 18
1.10 使用MapReduce監(jiān)控UI 20
第2章 HDFS進(jìn)階 21
2.1 簡(jiǎn)介 21
2.2 HDFS基準(zhǔn)測(cè)試 22
2.3 添加一個(gè)新的DataNode 23
2.4 DataNode下架 25
2.5 使用多個(gè)磁盤/卷以及限制HDFS的磁盤使用情況 26
2.6 設(shè)置HDFS塊大小 27
2.7 設(shè)置文件冗余因子 28
2.8 使用HDFS的Java API 29
2.9 使用HDFS的C API（libhdfs） 33
2.10 掛載HDFS（Fuse-DFS） 36
2.11 在HDFS中合并文件 38
第3章高級(jí)Hadoop MapReduce運(yùn)維 40
3.1 簡(jiǎn)介 40
3.2 調(diào)優(yōu)集群部署的Hadoop配置 40
3.3 運(yùn)行基準(zhǔn)測(cè)試來驗(yàn)證Hadoop的安裝 43
3.4 復(fù)用Java虛擬機(jī)以提高性能 44
3.5 容錯(cuò)和推測(cè)執(zhí)行 45
3.6 調(diào)試腳本—分析任務(wù)失敗 46
3.7 設(shè)置失敗百分比以及跳過不良記錄 48
3.8 共享用戶的Hadoop集群—使用公平調(diào)度器和其他調(diào)度器 50
3.9 Hadoop的安全性——整合使用Kerberos 51
3.10 使用Hadoop的工具接口 56
第4章開發(fā)復(fù)雜的Hadoop MapReduce應(yīng)用程序 59
4.1 簡(jiǎn)介 59
4.2 選擇合適的Hadoop數(shù)據(jù)類型 60
4.3 實(shí)現(xiàn)自定義的Hadoop Writable數(shù)據(jù)類型 62
4.4 實(shí)現(xiàn)自定義Hadoop key類型 65
4.5 從mapper中輸出不同值類型的數(shù)據(jù) 68
4.6 為輸入數(shù)據(jù)格式選擇合適的Hadoop InputFormat 70
4.7 添加新的輸入數(shù)據(jù)格式的支持—實(shí)現(xiàn)自定義的InputFormat 73
4.8 格式化MapReduce計(jì)算的結(jié)果—使用Hadoop的OutputFormat 76
4.9 Hadoop的中間（map到reduce）數(shù)據(jù)分區(qū) 78
4.10 將共享資源傳播和分發(fā)到MapReduce作業(yè)的任務(wù)中—Hadoop DistributedCache 80
4.11 在Hadoop上使用傳統(tǒng)應(yīng)用程序—Hadoop Streaming 84
4.12 添加MapReduce作業(yè)之間的依賴關(guān)系 86
4.13 用于報(bào)告自定義指標(biāo)的Hadoop計(jì)數(shù)器 88
第5章 Hadoop生態(tài)系統(tǒng) 90
5.1 簡(jiǎn)介 90
5.2 安裝HBase 91
5.3 使用Java客戶端API隨機(jī)存取數(shù)據(jù) 93
5.4 基于HBase（表輸入/輸出）運(yùn)行MapReduce作業(yè) 95
5.5 安裝Pig 98
5.6 運(yùn)行第一條Pig命令 99
5.7 使用Pig執(zhí)行集合操作（join，union）與排序 100
5.8 安裝Hive 102
5.9 使用Hive運(yùn)行SQL風(fēng)格的查詢 103
5.10 使用Hive執(zhí)行join 105
5.11 安裝Mahout 107
5.12 使用Mahout運(yùn)行K-means 108
5.13 可視化K-means結(jié)果 110
第6章分析 112
6.1 簡(jiǎn)介 112
6.2 使用MapReduce的簡(jiǎn)單分析 113
6.3 使用MapReduce執(zhí)行Group-By 116
6.4 使用MapReduce計(jì)算頻率分布和排序 119
6.5 使用GNU Plot繪制Hadoop計(jì)算結(jié)果 121
6.6 使用MapReduce計(jì)算直方圖 123
6.7 使用MapReduce計(jì)算散點(diǎn)圖 126
6.8 用Hadoop解析復(fù)雜的數(shù)據(jù)集 129
6.9 使用MapReduce連接兩個(gè)數(shù)據(jù)集 133
第7章搜索和索引 139
7.1 簡(jiǎn)介 139
7.2 使用Hadoop MapReduce生成倒排索引 140
7.3 使用ApacheNutch構(gòu)建域內(nèi)網(wǎng)絡(luò)爬蟲 143
7.4 使用Apache Solr索引和搜索網(wǎng)絡(luò)文檔 147
7.5 配置Apache HBase作為ApacheNutch的后端數(shù)據(jù)存儲(chǔ) 149
7.6 在Hadoop集群上部署Apache HBase 151
7.7 使用Hadoop/HBase集群構(gòu)建Apache Nutch全網(wǎng)爬蟲服務(wù) 153
7.8 用于索引和搜索的ElasticSearch 156
7.9 生成抓取網(wǎng)頁(yè)的內(nèi)鏈圖 158
第8章聚類、推薦和關(guān)系發(fā)現(xiàn) 161
8.1 簡(jiǎn)介 161
8.2 基于內(nèi)容的推薦 162
8.3 層次聚類 167
8.4 對(duì)亞馬遜銷售數(shù)據(jù)集進(jìn)行聚類操作 170
8.5 基于協(xié)同過濾的推薦 173
8.6 使用樸素貝葉斯分類器的分類 176
8.7 使用Adwords平衡算法給廣告分配關(guān)鍵字 181
第9章海量文本數(shù)據(jù)處理 189
9.1 簡(jiǎn)介 189
9.2 使用Hadoop Streaming和Python預(yù)處理數(shù)據(jù)（抽取、清洗和格式轉(zhuǎn)換） 190
9.3 使用Hadoop Streaming進(jìn)行數(shù)據(jù)去重 192
9.4 使用importtsv和批量加載工具把大型數(shù)據(jù)集加載到ApacheHBase
數(shù)據(jù)存儲(chǔ)中 194
9.5 創(chuàng)建用于文本數(shù)據(jù)的TF向量和TF-IDF向量 198
9.6 聚類文本數(shù)據(jù) 201
9.7 使用隱含狄利克雷分布（LDA）發(fā)現(xiàn)主題 203
9.8 使用Mahout的樸素貝葉斯分類器分類文件 206
第10章云端部署——在云上使用Hadoop 208
10.1 簡(jiǎn)介 208
10.2 使用亞馬遜彈性MapReduce運(yùn)行Hadoop MapReduce計(jì)算 209
10.3 使用亞馬遜EC2競(jìng)價(jià)實(shí)例來執(zhí)行EMR作業(yè)流以節(jié)約開支 212
10.4 使用EMR執(zhí)行Pig腳本 213
10.5 使用EMR執(zhí)行Hive腳本 216
10.6 使用命令行界面創(chuàng)建亞馬遜EMR作業(yè)流 219
10.7 使用EMR在亞馬遜EC2云上部署Apache HBase集群 222
10.8 使用EMR引導(dǎo)操作來配置亞馬遜EMR作業(yè)的虛擬機(jī) 226
10.9 使用Apache Whirr在云環(huán)境中部署Apache Hadoop集群 228
10.10 使用Apache Whirr在云環(huán)境中部署Apache HBase集群 231