注冊 | 登錄讀書好,好讀書,讀好書!
讀書網(wǎng)-DuShu.com
當前位置: 首頁出版圖書科學技術計算機/網(wǎng)絡軟件與程序設計程序設計綜合MapReduce 2.0源碼分析與編程實戰(zhàn)

MapReduce 2.0源碼分析與編程實戰(zhàn)

MapReduce 2.0源碼分析與編程實戰(zhàn)

定 價:¥49.00

作 者: 王曉華 著
出版社: 人民郵電出版社
叢編項:
標 簽: 計算機/網(wǎng)絡 軟件工程/開發(fā)項目管理

ISBN: 9787115332370 出版時間: 2014-01-01 包裝: 平裝
開本: 16開 頁數(shù): 289 字數(shù):  

內(nèi)容簡介

  《MapReduce 2.0源碼分析與編程實戰(zhàn)》比較系統(tǒng)地介紹了新一代MapReduce 2.0的理論體系、架構和程序設計方法。全書分為10章,系統(tǒng)地介紹了HDFS存儲系統(tǒng),Hadoop的文件I/O系統(tǒng),MapReduce 2.0的框架結構和源碼分析,MapReduce 2.0的配置與測試,MapReduce 2.0運行流程,MapReduce 2.0高級程序設計以及相關特性等內(nèi)容。《MapReduce 2.0源碼分析與編程實戰(zhàn)》最后部分介紹了數(shù)據(jù)挖掘的初步知識,以及不同應用類型的MapReduce 2.0編程實戰(zhàn)。《MapReduce 2.0源碼分析與編程實戰(zhàn)》強調(diào)理論聯(lián)系實際,幫助讀者在掌握MapReduce 2.0基本知識和特性的基礎上,培養(yǎng)實際編程和解決大數(shù)據(jù)處理相關問題的能力?!禡apReduce 2.0源碼分析與編程實戰(zhàn)》可作為學習MapReduce 2.0的源碼、MapReduce 2.0程序設計、數(shù)據(jù)挖掘、機器學習等相關內(nèi)容的程序設計人員的培訓和自學讀物,也可以作為高等院校相關專業(yè)的教學輔導書。

作者簡介

  王曉華,高校資深計算機專業(yè)講師,給研究生和本科生講授面向?qū)ο蟪绦蛟O計、數(shù)據(jù)結構、Hadoop程序設計等相關課程。主要研究方向為云計算、數(shù)據(jù)挖掘。曾主持和參與多項國家和省級科研課題,獨立完成一項科研成果獲省級成果認定,發(fā)表過多篇論文,申請一項專利。

圖書目錄

第1章 大象也會跳舞
1.1 大數(shù)據(jù)時代
1.2 大數(shù)據(jù)分析時代
1.3 簡單、粗暴、有效--這就是Hadoop
1.4 MapReduce與Hadoop
1.5 看,大象也會跳舞
本章小結
第2章 大象的肚子--HDFS文件系統(tǒng)詳解
2.1 HDFS基礎詳解
2.1.1 HDFS設計思路
2.1.2 HDFS架構與基本存儲單元
2.2 HDFS數(shù)據(jù)存取流程分析
2.2.1 HDFS數(shù)據(jù)存儲位置與復制詳解
2.2.2 HDFS 輸入流程分析
2.2.3 HDFS輸出流程分析
2.3 HDFS命令行操作詳解
2.3.1 HDFS中4個通用的命令行操作
2.3.2 HDFS文件18個基本命令行的操作
2.3.3 HDFS文件訪問權限詳解
2.4 通過Web瀏覽HDFS文件
2.5 HDFS接口使用詳解
2.5.1 使用FileSystem API操作HDFS中的內(nèi)容
2.5.2 使用FileSystem API讀取數(shù)據(jù)詳解
2.5.3 使用FileSystem API寫入數(shù)據(jù)詳解
2.6 HDFS文件同步與并發(fā)訪問
本章小結
第3章 “吃下去吐出來”--Hadoop文件I/O系統(tǒng)詳解
3.1 Hadoop的壓縮類型介紹
3.2 Hadoop的壓縮類庫
3.2.1 從一個簡單的例子開始
3.2.2 CompressionCodec接口
3.2.3 CompressionCodecFactory類詳解
3.2.4 壓縮池
3.2.5 在Hadoop中使用壓縮
3.3 I/O中序列化類型詳解
3.3.1 Text類詳解
3.3.2 IntWritable類詳解
3.3.3 ObjectWritable類詳解
3.3.4 NullWritable類詳解
3.3.5 ByteWritable類詳解
3.4 實現(xiàn)自定義的Writable類型
3.4.1 Writable接口
3.4.2 WritableComparable接口與RawComparator接口
3.4.3 自定義的Writable類
3.4.4 為了更快的比較
3.5 Hadoop中小文件處理詳解
3.5.1 SequenceFile詳解
3.5.2 MapFile詳解
本章小結
第4章 “大象的大腦”--MapReduce框架結構與源碼分析
4.1 MapReduce框架結構與源碼分析
4.1.1 MapReduce框架分析與執(zhí)行過程詳解
4.1.2 MapReduce輸入輸出與源碼分析
4.1.3 MapReduce中Job類詳解
4.2 編程實戰(zhàn):經(jīng)典的MapReduce單詞計數(shù)程序
4.2.1 準備工作
4.2.2  MapReduce過程分析
4.2.3 計數(shù)程序的MapReduce實現(xiàn)
4.2.4 計數(shù)程序的main方法
4.2.5 注意事項
4.2.6 運行結果
4.2.7 Mapper中的Combiner詳解
本章小結
第5章 深入!MapReduce配置與測試
5.1 MapReduce環(huán)境變量配置詳解
5.1.1 使用XML配置新的配置文件
5.1.2 修改已有的配置文件
5.1.3 輔助類ToolRunner、Configured詳解
5.2 使用MRUnit對MapReduce進行測試
5.2.1 MRUnit簡介與使用
5.2.2 使用MRUnit完成Mapper單元測試
5.2.3 使用MRUnit完成Reduce單元測試
5.2.4 使用MRUnit完成MapReduce單元測試
5.3 在本地磁盤上進行MapReduce測試
5.3.1 偽環(huán)境欺騙
5.3.2 在Eclipse中配置Hadoop插件
5.3.3 編寫本地測試代碼
5.4 MapReduce計數(shù)器
5.4.1 使用計數(shù)器的MapReduce程序設計
5.4.2 通過Web接口進行任務分析
5.4.3 通過Web接口查看計數(shù)器
本章小結
第6章 大象的思考流程--MapReduce運行流程詳解
6.1 經(jīng)典MapReduce任務的工作流程
6.1.1 ClientNode執(zhí)行任務的初始化
6.1.2 消息傳遞
6.1.3 MapReduce任務的執(zhí)行
6.1.4 任務的完成與狀態(tài)更新
6.2 經(jīng)典MapReduce任務異常處理詳解
6.2.1 MapReduce任務異常的處理方式
6.2.2 MapReduce任務失敗的處理方式
6.3 經(jīng)典MapReduce任務的數(shù)據(jù)處理過程
6.3.1 Map端的輸入數(shù)據(jù)處理過程
6.3.2 Reduce端的輸入數(shù)據(jù)處理過程
6.3.3 Java虛擬機重用
6.4 MapReduce 2.0(YARN)工作流程詳解
6.4.1 YARN概述
6.4.2 YARN任務過程分析
6.4.3 YARN的異常處理
本章小結
第7章 更強的大象--MapReduce高級程序設計續(xù)
7.1 MapReduce程序設計默認格式類型詳解
7.1.1 map與reduce方法的默認輸入輸出類型
7.1.2 自定義輸入輸出類型設置
7.1.3 自定義全局類型變量設置要求
7.1.4 默認的MapReduce程序設置
7.2 InputFormat輸入格式詳解
7.2.1 輸入記錄與分區(qū)
7.2.2 InputFormat源碼及執(zhí)行過程分析
7.2.3 實現(xiàn)自己的RecordReader類
7.2.4 自定義的FileInputFormat類
7.2.5 一些常用的InputFormat類詳解
7.3 OutputFormat輸出格式詳解
7.3.1 OutputFormat默認輸出格式
7.3.2 自定義OutputFormat輸出格式
7.3.3 對Reduce任務數(shù)進行設置
7.3.4 OutputFormat分區(qū)類Partitioner詳解
7.4 多種輸入與輸出使用介紹
7.4.1 MultipleInputs多種輸入方式詳解
7.4.2 MultipleOutputs多種輸出方式詳解
本章小結
第8章 MapReduce相關特性詳解
8.1 MapReduce計數(shù)器
8.1.1 Hadoop框架內(nèi)置的計數(shù)器
8.1.2 自定義計數(shù)器
8.1.3 動態(tài)計數(shù)器
8.1.4 獲取計數(shù)器值
8.2 排序與查找
8.2.1 普通排序規(guī)則與查找
8.2.2 使用MapFile進行排序與查找
8.3 對輸出結果的值分組排序
8.3.1 準備工作
8.3.2 對結果進行分組處理
8.3.3 對鍵的二次排序
8.3.4 自定義輸出分組
8.4 編程實戰(zhàn):使用二次排序自動查找最小值
8.4.1 思路分析
8.4.2 驗證輸入輸出結果
8.4.3 對結果進行二次排序
8.4.4 對結果進行分組
8.4.5 分片處理排序與分組
8.4.6 驗證結果
本章小結
第9章 啤酒與尿布--MapReduce連接與數(shù)據(jù)挖掘初步
9.1 對于同樣格式數(shù)據(jù)進行MapReduce連接
9.2 對于不同格式數(shù)據(jù)進行MapReduce連接
9.3 不能說的秘密--啤酒與尿布
9.3.1 銷售清單的秘密
9.3.2 設計程序
9.3.3 程序執(zhí)行結果
9.4 數(shù)據(jù)挖掘初步
本章小結
第10章 MapReduce實戰(zhàn)編程及深度分析
10.1 編程實戰(zhàn):自定義數(shù)據(jù)庫中讀取數(shù)據(jù)
10.1.1 準備工作
10.1.2 程序分析
10.1.3 自定義SQLInputFormat
10.1.4 使用自定義程序從數(shù)據(jù)庫中讀取數(shù)據(jù)
10.1.5 程序運行及數(shù)據(jù)分析
10.1.6 使用合并記錄進行性能調(diào)優(yōu)
10.2 編程實戰(zhàn):串聯(lián)尋找共同轉載微博
10.2.1 應用分析
10.2.2 第一步表轉換
10.2.3 建立關注連接
10.2.4 自定義的OutputFormat
10.2.5 串聯(lián)解決共同轉載微博
10.2.6 性能調(diào)優(yōu)及后續(xù)處理
10.3 編程實戰(zhàn):云存儲模型
10.3.1 應用分析
10.3.2 Tomcat簡介
10.3.3 配置Tomcat服務器
10.3.4 測試Tomcat服務器
10.3.5 在Eclipse中配置Tomcat
10.3.6 創(chuàng)建云存儲目錄
10.3.7 獲取云存儲列表
10.3.8 將文件上傳至數(shù)據(jù)云存儲中
10.3.9 刪除文件
10.3.10 下載云端存儲文件
10.3.11 程序執(zhí)行與性能調(diào)優(yōu)
10.4 編程實戰(zhàn):多文檔相似關鍵字檢索
10.4.1 應用分析
10.4.2 自定義任務處理類
10.4.3 程序執(zhí)行及后續(xù)分析
10.5 編程實戰(zhàn):學生成績整理與分組
10.5.1 應用分析
10.5.2 自定義的ScoreWritable
10.5.3 自定義的MapReduce
10.5.4 自定義的分組
10.5.5 程序運行結果
10.5.6 采用更多分組類型
本章小結

本目錄推薦

掃描二維碼
Copyright ? 讀書網(wǎng) m.ranfinancial.com 2005-2020, All Rights Reserved.
鄂ICP備15019699號 鄂公網(wǎng)安備 42010302001612號