注冊 | 登錄讀書好,好讀書,讀好書!
讀書網-DuShu.com
當前位置: 首頁出版圖書科學技術工業(yè)技術自動化技術、計算技術Hadoop實戰(zhàn)手冊

Hadoop實戰(zhàn)手冊

Hadoop實戰(zhàn)手冊

定 價:¥59.00

作 者: (美)Jonathan R. Owens,Jon Lentz,Brian Femiano 著,傅杰,趙磊,盧學裕 譯
出版社: 人民郵電出版社
叢編項:
標 簽: 計算機/網絡 人工智能

購買這本書可以去


ISBN: 9787115337955 出版時間: 2014-03-01 包裝: 平裝
開本: 16開 頁數(shù): 242 字數(shù):  

內容簡介

  這是一本Hadoop實用手冊,主要針對實際問題給出相應的解決方案?!禜adoop實戰(zhàn)手冊》特色是以實踐結合理論分析,手把手教讀者如何操作,并且對每個操作都做詳細的解釋,對一些重要的知識點也做了必要的拓展。全書共包括3個部分,第一部分為基礎篇,主要介紹Hadoop數(shù)據(jù)導入導出、HDFS的概述、Pig與Hive的使用、ETL和簡單的數(shù)據(jù)處理,還介紹了MapReduce的調試方式;第二部分為數(shù)據(jù)分析高級篇,主要介紹高級聚合、大數(shù)據(jù)分析等技巧;第三部分為系統(tǒng)管理篇,主要介紹Hadoop的部署的各種模式、添加新節(jié)點、退役節(jié)點、快速恢復、MapReduce調優(yōu)等?!禜adoop實戰(zhàn)手冊》適合各個層次的Hadoop技術人員閱讀。通過閱讀《Hadoop實戰(zhàn)手冊》,Hadoop初學者可以使用Hadoop來進行數(shù)據(jù)處理,Hadoop工程師或者數(shù)據(jù)挖掘工程師可以解決復雜的業(yè)務分析,Hadoop系統(tǒng)管理員可以更好地進行日常運維?!禜adoop實戰(zhàn)手冊》也可作為一本Hadoop技術手冊,針對要解決的相關問題,在工作中隨時查閱。

作者簡介

  Jonathan R. Owens:軟件工程師,擁有Java和C++技術背景,最近主要從事Hadoop及相關分布式處理技術工作。目前就職于comScore公司,為核心數(shù)據(jù)處理團隊成員。comScore是一家知名的從事數(shù)字測量與分析的公司,公司使用Hadoop及其他定制的分布式系統(tǒng)對數(shù)據(jù)進行聚合、分析和管理,每天處理超過400億單的交易。Jon Lentz:comScore核心數(shù)據(jù)處理團隊軟件工程師。他更傾向于使用Pig腳本來解決問題。在加入comScore之前,他主要開發(fā)優(yōu)化供應鏈和分配固定收益證券的軟件。Brian Femiano:本科畢業(yè)于計算機科學專業(yè),并且從事相關專業(yè)軟件開發(fā)工作6年,最近兩年主要利用Hadoop構建高級分析與大數(shù)據(jù)存儲。他擁有商業(yè)領域的相關經驗,以及豐富的政府合作經驗。他目前就職于Potomac Fusion公司,這家公司主要從事可擴展算法的開發(fā),并致力于學習并改進政府領域中最先進和最復雜的數(shù)據(jù)集。他通過教授課程和會議培訓在公司內部普及Hadoop和云計算相關的技術。譯者簡介傅杰 碩士,畢業(yè)于清華大學高性能所,現(xiàn)就職于優(yōu)酷土豆集團,任數(shù)據(jù)平臺架構師,負責集團大數(shù)據(jù)基礎平臺建設,支撐其他團隊的存儲與計算需求,包含Hadoop基礎平臺、日志采集系統(tǒng)、實時計算平臺、消息系統(tǒng)、天機鏡系統(tǒng)等。個人專注于大數(shù)據(jù)基礎平臺架構及安全研究,積累了豐富的平臺運營經驗,擅長Hadoop平臺性能調優(yōu)、JVM調優(yōu)及診斷各種MapReduce作業(yè),還擔任China Hadoop Submit 2013大會專家委員、優(yōu)酷土豆大數(shù)據(jù)系列課程策劃&講師、EasyHadoop社區(qū)講師。趙磊 碩士,畢業(yè)于中國科學技術大學,現(xiàn)就職于優(yōu)酷土豆集團,任數(shù)據(jù)挖掘算法工程師,負責集團個性化推薦和無線消息推送系統(tǒng)的搭建和相關算法的研究。個人專注于基于大數(shù)據(jù)的推薦算法的研究與應用,積累了豐富的大數(shù)據(jù)分析與數(shù)據(jù)挖掘的實踐經驗,對分布式計算和海量數(shù)據(jù)處理有深刻的認識。盧學裕 碩士,畢業(yè)于武漢大學,曾供職騰訊公司即通部門,現(xiàn)就職于優(yōu)酷土豆集團,擔任大數(shù)據(jù)技術負責人,負責優(yōu)酷土豆集團大數(shù)據(jù)系統(tǒng)平臺、大數(shù)據(jù)分析、數(shù)據(jù)挖掘和推薦系統(tǒng)。有豐富的Hadoop平臺使用及優(yōu)化經驗,尤其擅長MapReduce的性能優(yōu)化?;贖adoop生態(tài)系統(tǒng)構建了優(yōu)酷土豆的推薦系統(tǒng),BI分析平臺。

圖書目錄

目 錄
第1章 Hadoop分布式文件系統(tǒng)——導入和導出數(shù)據(jù) 1
1.1 介紹 1
1.2 使用Hadoop shell命令導入和導出數(shù)據(jù)到HDFS 2
1.3 使用distcp實現(xiàn)集群間數(shù)據(jù)復制 7
1.4 使用Sqoop從MySQL數(shù)據(jù)庫導入數(shù)據(jù)到HDFS 9
1.5 使用Sqoop從HDFS導出數(shù)據(jù)到MySQL 12
1.6 配置Sqoop以支持SQL Server 15
1.7 從HDFS導出數(shù)據(jù)到MongoDB 17
1.8 從MongoDB導入數(shù)據(jù)到HDFS 20
1.9 使用Pig從HDFS導出數(shù)據(jù)到MongoDB 23
1.10 在Greenplum外部表中使用HDFS 24
1.11 利用Flume加載數(shù)據(jù)到HDFS中 26
第2章 HDFS 28
2.1 介紹 28
2.2 讀寫HDFS數(shù)據(jù) 29
2.3 使用LZO壓縮數(shù)據(jù) 31
2.4 讀寫序列化文件數(shù)據(jù) 34
2.5 使用Avro序列化數(shù)據(jù) 37
2.6 使用Thrift序列化數(shù)據(jù) 41
2.7 使用Protocol Buffers序列化數(shù)據(jù) 44
2.8 設置HDFS備份因子 48
2.9 設置HDFS塊大小 49
第3章 抽取和轉換數(shù)據(jù) 51
3.1 介紹 51
3.2 使用MapReduce將Apache日志轉換為TSV格式 52
3.3 使用Apache Pig過濾網絡服務器日志中的爬蟲訪問量 54
3.4 使用Apache Pig根據(jù)時間戳對網絡服務器日志數(shù)據(jù)排序 57
3.5 使用Apache Pig對網絡服務器日志進行會話分析 59
3.6 通過Python擴展Apache Pig的功能 61
3.7 使用MapReduce及二次排序計算頁面訪問量 62
3.8 使用Hive和Python清洗、轉換地理事件數(shù)據(jù) 67
3.9 使用Python和Hadoop Streaming執(zhí)行時間序列分析 71
3.10 在MapReduce中利用MultipleOutputs輸出多個文件 75
3.11 創(chuàng)建用戶自定義的Hadoop Writable及InputFormat讀取地理事件數(shù)據(jù) 78
第4章 使用Hive、Pig和MapReduce處理常見的任務 85
4.1 介紹 85
4.2 使用Hive將HDFS中的網絡日志數(shù)據(jù)映射為外部表 86
4.3 使用Hive動態(tài)地為網絡日志查詢結果創(chuàng)建Hive表 87
4.4 利用Hive字符串UDF拼接網絡日志數(shù)據(jù)的各個字段 89
4.5 使用Hive截取網絡日志的IP字段并確定其對應的國家 92
4.6 使用MapReduce對新聞檔案數(shù)據(jù)生成n-gram 94
4.7 通過MapReduce使用分布式緩存查找新聞檔案數(shù)據(jù)中包含關鍵詞的行 98
4.8 使用Pig加載一個表并執(zhí)行包含GROUP BY的SELECT操作 102
第5章 高級連接操作 104
5.1 介紹 104
5.2 使用MapReduce對數(shù)據(jù)進行連接 104
5.3 使用Apache Pig對數(shù)據(jù)進行復制連接 108
5.4 使用Apache Pig對有序數(shù)據(jù)進行歸并連接 110
5.5 使用Apache Pig對傾斜數(shù)據(jù)進行傾斜連接 111
5.6 在Apache Hive中通過map端連接對地理事件進行分析 113
5.7 在Apache Hive通過優(yōu)化的全外連接分析地理事件數(shù)據(jù) 115
5.8 使用外部鍵值存儲(Redis)連接數(shù)據(jù) 118
第6章 大數(shù)據(jù)分析 123
6.1 介紹 123
6.2 使用MapReduce和Combiner統(tǒng)計網絡日志數(shù)據(jù)集中的獨立IP數(shù) 124
6.3 運用Hive日期UDF對地理事件數(shù)據(jù)集中的時間日期進行轉換與排序 129
6.4 使用Hive創(chuàng)建基于地理事件數(shù)據(jù)的每月死亡報告 131
6.5 實現(xiàn)Hive用戶自定義UDF用于確認地理事件數(shù)據(jù)的來源可靠性 133
6.6 使用Hive的map/reduce操作以及Python標記最長的無暴力發(fā)生的時間區(qū)間 136
6.7 使用Pig計算Audioscrobbler數(shù)據(jù)集中藝術家之間的余弦相似度 141
6.8 使用Pig以及datafu剔除Audioscrobbler數(shù)據(jù)集中的離群值 145
第7章 高級大數(shù)據(jù)分析 147
7.1 介紹 147
7.2 使用Apache Giraph計算PageRank 147
7.3 使用Apache Giraph計算單源最短路徑 150
7.4 使用Apache Giraph執(zhí)行分布式寬度優(yōu)先搜索 158
7.5 使用Apache Mahout計算協(xié)同過濾 165
7.6 使用Apache Mahout進行聚類 168
7.7 使用Apache Mahout進行情感分類 171
第8章 調試 174
8.1 介紹 174
8.2 在MapReduce中使用Counters監(jiān)測異常記錄 174
8.3 使用MRUnit開發(fā)和測試MapReduce 177
8.4 本地模式下開發(fā)和測試MapReduce 179
8.5 運行MapReduce作業(yè)跳過異常記錄 182
8.6 在流計算作業(yè)中使用Counters 184
8.7 更改任務狀態(tài)顯示調試信息 185
8.8 使用illustrate調試Pig作業(yè) 187
第9章 系統(tǒng)管理 189
9.1 介紹 189
9.2 在偽分布模式下啟動Hadoop 189
9.3 在分布式模式下啟動Hadoop 192
9.4 添加一個新節(jié)點 195
9.5 節(jié)點安全退役 197
9.6 NameNode故障恢復 198
9.7 使用Ganglia監(jiān)控集群 199
9.8 MapReduce作業(yè)參數(shù)調優(yōu) 201
第10章 使用Apache Accumulo進行持久化 204
10.1 介紹 204
10.2 在Accumulo中設計行鍵存儲地理事件 205
10.3 使用MapReduce批量導入地理事件數(shù)據(jù)到Accumulo 213
10.4 設置自定義字段約束Accumulo中的地理事件數(shù)據(jù) 220
10.5 使用正則過濾器限制查詢結果 225
10.6 使用SumCombiner計算同一個鍵的不同版本的死亡數(shù)總和 228
10.7 使用Accumulo實行單元級安全的掃描 232
10.8 使用MapReduce聚集Accumulo中的消息源 237

本目錄推薦

掃描二維碼
Copyright ? 讀書網 m.ranfinancial.com 2005-2020, All Rights Reserved.
鄂ICP備15019699號 鄂公網安備 42010302001612號