深入理解大數(shù)據(jù)：大數(shù)據(jù)處理與編程實(shí)踐

定　價(jià)：￥79.00

作　者：	黃宜華編
出版社：	機(jī)械工業(yè)出版社
叢編項(xiàng)：	計(jì)算機(jī)類專業(yè)系統(tǒng)能力培養(yǎng)系列教材
標(biāo)　簽：	大學(xué)教材大中專教材教輔

購(gòu)買這本書可以去

ISBN：	9787111473251	出版時(shí)間：	2014-08-01	包裝：	平裝
開本：	16開	頁數(shù)：	520	字?jǐn)?shù)：

內(nèi)容簡(jiǎn)介

　　《深入理解大數(shù)據(jù)：大數(shù)據(jù)處理與編程實(shí)踐》從HadoopMapReduce并行計(jì)算技術(shù)與系統(tǒng)的基本原理剖析著手，在系統(tǒng)介紹基本工作原理、編程模型、編程框架和接口的基礎(chǔ)上，著重系統(tǒng)化地介紹MapReduce并行算法設(shè)計(jì)與編程技術(shù)，較為全面地介紹了基本MapReduce算法設(shè)計(jì)、高級(jí)MapReduce編程技術(shù)、以及一系列較為復(fù)雜的機(jī)器學(xué)習(xí)和數(shù)據(jù)挖掘并行化算法，并引入來自IntelHadoop系統(tǒng)產(chǎn)品的一系列增強(qiáng)功能以及深度技術(shù)剖析；最后，為了提高讀者的算法設(shè)計(jì)與編程實(shí)戰(zhàn)能力，本書較為詳細(xì)地介紹了一系列綜合性和實(shí)戰(zhàn)性大數(shù)據(jù)處理和算法設(shè)計(jì)問題，這些問題來自課程同學(xué)參加的全國(guó)性大數(shù)據(jù)大賽中的獲獎(jiǎng)算法、課程中的優(yōu)秀課程設(shè)計(jì)、以及來自本團(tuán)隊(duì)的科研課題及業(yè)界實(shí)際的大數(shù)據(jù)應(yīng)用實(shí)戰(zhàn)案例。

作者簡(jiǎn)介

暫缺《深入理解大數(shù)據(jù)：大數(shù)據(jù)處理與編程實(shí)踐》作者簡(jiǎn)介

圖書目錄

第一部分　Hadoop系統(tǒng)第1章　大數(shù)據(jù)處理技術(shù)簡(jiǎn)介1.1　并行計(jì)算技術(shù)簡(jiǎn)介1.1.1　并行計(jì)算的基本概念1.1.2　并行計(jì)算技術(shù)的分類1.1.3　并行計(jì)算的主要技術(shù)問題1.2　大數(shù)據(jù)處理技術(shù)簡(jiǎn)介1.2.1　大數(shù)據(jù)的發(fā)展背景和研究意義1.2.2　大數(shù)據(jù)的技術(shù)特點(diǎn)1.2.3　大數(shù)據(jù)研究的主要目標(biāo)、基本原則和基本途徑1.2.4　大數(shù)據(jù)計(jì)算模式和系統(tǒng)1.2.5　大數(shù)據(jù)計(jì)算模式的發(fā)展趨勢(shì)1.2.6　大數(shù)據(jù)的主要技術(shù)層面和技術(shù)內(nèi)容1.3　MapReduce并行計(jì)算技術(shù)簡(jiǎn)介1.3.1　MapReduce的基本概念和由來1.3.2　MapReduce的基本設(shè)計(jì)思想1.3.3　MapReduce的主要功能和技術(shù)特征1.4　Hadoop系統(tǒng)簡(jiǎn)介1.4.1　Hadoop的概述與發(fā)展歷史1.4.2　Hadoop系統(tǒng)分布式存儲(chǔ)與并行計(jì)算構(gòu)架1.4.3　Hadoop平臺(tái)的基本組成與生態(tài)系統(tǒng)1.4.4　Hadoop的應(yīng)用現(xiàn)狀和發(fā)展趨勢(shì)第2章　Hadoop系統(tǒng)的安裝與操作管理2.1　Hadoop系統(tǒng)安裝方法簡(jiǎn)介2.2　單機(jī)和單機(jī)偽分布式Hadoop系統(tǒng)安裝基本步驟2.2.1　安裝和配置JDK2.2.2　創(chuàng)建Hadoop用戶2.2.3　下載安裝Hadoop2.2.4　配置SSH2.2.5　配置Hadoop環(huán)境2.2.6　Hadoop的運(yùn)行2.2.7　運(yùn)行測(cè)試程序2.2.8　查看集群狀態(tài)2.3　集群分布式Hadoop系統(tǒng)安裝基本步驟2.3.1　安裝和配置JDK2.3.2　創(chuàng)建Hadoop用戶2.3.3　下載安裝Hadoop2.3.4　配置SSH2.3.5　配置Hadoop環(huán)境2.3.6　Hadoop的運(yùn)行2.3.7　運(yùn)行測(cè)試程序2.3.8　查看集群狀態(tài)2.4　Hadoop& ；MapReduce程序開發(fā)過程2.5　集群遠(yuǎn)程作業(yè)提交與執(zhí)行2.5.1　集群遠(yuǎn)程作業(yè)提交和執(zhí)行過程2.5.2　查看作業(yè)執(zhí)行結(jié)果和集群狀態(tài)第3章　大數(shù)據(jù)存儲(chǔ)--分布式文件系統(tǒng)HDFS3.1　HDFS的基本特征與構(gòu)架3.1.1　HDFS的基本特征3.1.2　HDFS的基本框架與工作過程3.2　HDFS可靠性設(shè)計(jì)3.2.1　HDFS數(shù)據(jù)塊多副本存儲(chǔ)設(shè)計(jì)3.2.2　HDFS可靠性的設(shè)計(jì)實(shí)現(xiàn)3.3　HDFS文件存儲(chǔ)組織與讀寫3.3.1　文件數(shù)據(jù)的存儲(chǔ)組織3.3.2　數(shù)據(jù)的讀寫過程3.4　HDFS文件系統(tǒng)操作命令3.4.1　HDFS啟動(dòng)與關(guān)閉3.4.2　HDFS文件操作命令格式與注意事項(xiàng)3.4.3　HDFS文件操作命令3.4.4　高級(jí)操作命令和工具3.5　HDFS基本編程接口與示例3.5.1　HDFS編程基礎(chǔ)知識(shí)3.5.2　HDFS基本文件操作API3.5.3　HDFS基本編程實(shí)例第4章　Hadoop& ；MapReduce并行編程框架4.1　MapReduce基本編程模型和框架4.1.1　MapReduce并行編程抽象模型4.1.2　MapReduce的完整編程模型和框架4.2　Hadoop& ；MapReduce基本構(gòu)架與工作過程4.2.1　Hadoop系統(tǒng)構(gòu)架和MapReduce程序執(zhí)行過程4.2.2　Hadoop& ；MapReduce執(zhí)行框架和作業(yè)執(zhí)行流程4.2.3　Hadoop& ；MapReduce作業(yè)調(diào)度過程和調(diào)度方法4.2.4　MapReduce執(zhí)行框架的組件和執(zhí)行流程4.3　Hadoop& ；MapReduce主要組件與編程接口4.3.1　數(shù)據(jù)輸入格式InputFormat4.3.2　輸入數(shù)據(jù)分塊InputSplit4.3.3　數(shù)據(jù)記錄讀入RecordReader4.3.4　Mapper類4.3.5　Combiner4.3.6　Partitioner4.3.7　Sort4.3.8　Reducer類4.3.9　數(shù)據(jù)輸出格式OutputFormat4.3.10　數(shù)據(jù)記錄輸出RecordWriter第5章　分布式數(shù)據(jù)庫(kù)HBase5.1　HBase簡(jiǎn)介5.1.1　為什么需要NoSQL數(shù)據(jù)庫(kù)5.1.2　HBase的作用和功能特點(diǎn)5.2　HBase的數(shù)據(jù)模型5.2.1　HBase的基本數(shù)據(jù)模型5.2.2　HBase的查詢模式5.2.3　HBase表設(shè)計(jì)5.3　HBase的基本構(gòu)架與數(shù)據(jù)存儲(chǔ)管理方法5.3.1　HBase在Hadoop生態(tài)中的位置和關(guān)系5.3.2　HBase的基本組成結(jié)構(gòu)5.3.3　HBase& ；Region5.3.4　Region& ；Server5.3.5　HBase的總體組成結(jié)構(gòu)5.3.6　HBase的尋址和定位5.3.7　HBase節(jié)點(diǎn)的上下線管理5.4　HBase安裝與操作5.4.1　安裝一個(gè)單機(jī)版的HBase5.4.2　HBase& ；Shell操作命令5.4.3　基于集群的HBase安裝和配置5.5　HBase的編程接口和編程示例5.5.1　表創(chuàng)建編程接口與示例5.5.2　表數(shù)據(jù)更新編程接口與示例5.5.3　數(shù)據(jù)讀取編程接口與示例5.5.4　HBase& ；MapReduce支持和編程示例5.6　HBase的讀寫操作和特性5.6.1　HBase的數(shù)據(jù)寫入5.6.2　HBase的數(shù)據(jù)讀取5.7　其他HBase功能5.7.1　Coprocessor5.7.2　批量數(shù)據(jù)導(dǎo)入Bulk& ；Load第6章　分布式數(shù)據(jù)倉(cāng)庫(kù)Hive6.1　Hive的作用與結(jié)構(gòu)組成6.2　Hive的數(shù)據(jù)模型6.2.1　Hive的數(shù)據(jù)存儲(chǔ)模型6.2.2　Hive的元數(shù)據(jù)存儲(chǔ)管理6.2.3　Hive的數(shù)據(jù)類型6.3　Hive的安裝6.3.1　下載Hive安裝包6.3.2　配置環(huán)境變量6.3.3　創(chuàng)建Hive數(shù)據(jù)文件目錄6.3.4　修改Hive配置文件6.4　Hive查詢語言--HiveQL6.4.1　DDL語句6.4.2　DML語句6.4.3　SELECT查詢語句6.4.4　數(shù)據(jù)表操作語句示例6.4.5　分區(qū)的使用6.4.6　桶的使用6.4.7　子查詢6.4.8　Hive的優(yōu)化和高級(jí)功能6.5　Hive& ；JDBC編程接口與程序設(shè)計(jì)第7章　Intel& ；Hadoop系統(tǒng)優(yōu)化與功能增強(qiáng)7.1　Intel& ；Hadoop系統(tǒng)簡(jiǎn)介7.1.1　Intel& ；Hadoop系統(tǒng)的主要優(yōu)化和增強(qiáng)功能7.1.2　Intel& ；Hadoop的系統(tǒng)構(gòu)成與組件7.2　Intel& ；Hadoop系統(tǒng)的安裝和管理7.3　Intel& ；Hadoop& ；HDFS的優(yōu)化和功能擴(kuò)展7.3.1　HDFS的高可用性7.3.2　Intel& ；Hadoop系統(tǒng)高可用性配置服務(wù)7.3.3　Intel& ；Hadoop系統(tǒng)高可用性配置服務(wù)操作7.3.4　自適應(yīng)數(shù)據(jù)塊副本調(diào)整策略7.4　Intel& ；Hadoop& ；HBase的功能擴(kuò)展和編程示例7.4.1　HBase大對(duì)象存儲(chǔ)（LOB）7.4.2　加鹽表7.4.3　HBase跨數(shù)據(jù)中心大表7.5　Intel& ；Hadoop& ；Hive的功能擴(kuò)展和編程示例7.5.1　開源Hive的不足7.5.2　Intel& ；Hadoop“Hive& ；over& ；HBase”優(yōu)化設(shè)計(jì)7.5.3　Hive& ；over& ；HBase的架構(gòu)第二部分　MapReduce的編程和算法設(shè)計(jì)第8章　MapReduce基礎(chǔ)算法程序設(shè)計(jì)8.1　WordCount8.1.1　WordCount算法編程實(shí)現(xiàn)8.2　矩陣乘法8.2.1　矩陣乘法原理和實(shí)現(xiàn)思路8.2.2　矩陣乘法的MapReduce程序?qū)崿F(xiàn)8.3　關(guān)系代數(shù)運(yùn)算8.3.1　選擇操作8.3.2　投影操作8.3.3　交運(yùn)算8.3.4　差運(yùn)算8.3.5　自然連接8.4　單詞共現(xiàn)算法8.4.1　單詞共現(xiàn)算法的基本設(shè)計(jì)8.4.2　單詞共現(xiàn)算法的實(shí)現(xiàn)8.4.3　單詞共現(xiàn)算法實(shí)現(xiàn)中的細(xì)節(jié)問題8.5　文檔倒排索引8.5.1　簡(jiǎn)單的文檔倒排索引8.5.2　帶詞頻等屬性的文檔倒排索引8.6　PageRank網(wǎng)頁排名算法8.6.1　PageRank的簡(jiǎn)化模型8.6.2　PageRank的隨機(jī)瀏覽模型8.6.3　PageRank的MapReduce實(shí)現(xiàn)8.7　專利文獻(xiàn)分析算法8.7.1　構(gòu)建專利被引用列表8.7.2　專利被引用次數(shù)統(tǒng)計(jì)8.7.3　專利被引用次數(shù)直方圖統(tǒng)計(jì)8.7.4　按照年份或國(guó)家統(tǒng)計(jì)專利數(shù)第9章　MapReduce高級(jí)程序設(shè)計(jì)技術(shù)9.1　簡(jiǎn)介9.2　復(fù)合鍵值對(duì)的使用9.2.1　把小的鍵值對(duì)合并成大的鍵值對(duì)9.2.2　巧用復(fù)合鍵讓系統(tǒng)完成排序9.3　用戶定制數(shù)據(jù)類型9.3.1　Hadoop內(nèi)置的數(shù)據(jù)類型9.3.2　用戶自定義數(shù)據(jù)類型的實(shí)現(xiàn)9.4　用戶定制數(shù)據(jù)輸入輸出格式9.4.1　Hadoop內(nèi)置的數(shù)據(jù)輸入格式與RecordReader9.4.2　用戶定制數(shù)據(jù)輸入格式與RecordReader9.4.3　Hadoop內(nèi)置的數(shù)據(jù)輸出格式與RecordWriter9.4.4　用戶定制數(shù)據(jù)輸出格式與RecordWriter9.4.5　通過定制數(shù)據(jù)輸出格式實(shí)現(xiàn)多集合文件輸出9.5　用戶定制Partitioner和Combiner9.5.1　用戶定制Partitioner9.5.2　用戶定制Combiner9.6　組合式MapReduce計(jì)算作業(yè)9.6.1　迭代MapReduce計(jì)算任務(wù)9.6.2　順序組合式MapReduce作業(yè)的執(zhí)行9.6.3　具有復(fù)雜依賴關(guān)系的組合式MapReduce作業(yè)的執(zhí)行9.6.4　MapReduce前處理和后處理步驟的鏈?zhǔn)綀?zhí)行9.7　多數(shù)據(jù)源的連接9.7.1　基本問題數(shù)據(jù)示例9.7.2　用DataJoin類實(shí)現(xiàn)Reduce端連接9.7.3　用全局文件復(fù)制方法實(shí)現(xiàn)Map端連接9.7.4　帶Map端過濾的Reduce端連接9.7.5　多數(shù)據(jù)源連接解決方法的限制9.8　全局參數(shù)/數(shù)據(jù)文件的傳遞與使用9.8.1　全局作業(yè)參數(shù)的傳遞9.8.2　查詢?nèi)值腗apReduce作業(yè)屬性9.8.3　全局?jǐn)?shù)據(jù)文件的傳遞9.9　關(guān)系數(shù)據(jù)庫(kù)的連接與訪問9.9.1　從數(shù)據(jù)庫(kù)中輸入數(shù)據(jù)9.9.2　向數(shù)據(jù)庫(kù)中輸出計(jì)算結(jié)果第10章　MapReduce數(shù)據(jù)挖掘基礎(chǔ)算法10.1　K-Means聚類算法10.1.1　K-Means聚類算法簡(jiǎn)介10.1.2　基于MapReduce的K-Means算法的設(shè)計(jì)實(shí)現(xiàn)10.2　KNN最近鄰分類算法10.2.1　KNN最近鄰分類算法簡(jiǎn)介10.2.2　基于MapReduce的KNN算法的設(shè)計(jì)實(shí)現(xiàn)10.3　樸素貝葉斯分類算法10.3.1　樸素貝葉斯分類算法簡(jiǎn)介10.3.2　樸素貝葉斯分類并行化算法的設(shè)計(jì)10.3.3　樸素貝葉斯分類并行化算法的實(shí)現(xiàn)10.4　決策樹分類算法10.4.1　決策樹分類算法簡(jiǎn)介10.4.2　決策樹并行化算法的設(shè)計(jì)10.4.3　決策樹并行化算法的實(shí)現(xiàn)10.5　頻繁項(xiàng)集挖掘算法10.5.1　頻繁項(xiàng)集挖掘問題描述10.5.2& ；　Apriori頻繁項(xiàng)集挖掘算法簡(jiǎn)介10.5.3　Apriori頻繁項(xiàng)集挖掘并行化算法的設(shè)計(jì)10.5.4　Apriori頻繁項(xiàng)集挖掘并行化算法的實(shí)現(xiàn)10.5.5　基于子集求取的頻繁項(xiàng)集挖掘算法的設(shè)計(jì)10.5.6　基于子集求取的頻繁項(xiàng)集挖掘并行化算法的實(shí)現(xiàn)10.6　隱馬爾科夫模型和最大期望算法10.6.1　隱馬爾科夫模型的基本描述10.6.2　隱馬爾科夫模型問題的解決方法10.6.3　最大期望算法概述10.6.4　并行化隱馬爾科夫算法設(shè)計(jì)10.6.5　隱馬爾科夫算法的并行化實(shí)現(xiàn)第11章　大數(shù)據(jù)處理算法設(shè)計(jì)與應(yīng)用編程案例11.1　基于MapReduce的搜索引擎算法11.1.1　搜索引擎工作原理簡(jiǎn)介11.1.2　基于MapReduce的文檔預(yù)處理11.1.3　基于MapReduce的文檔倒排索引構(gòu)建11.1.4　建立Web信息查詢服務(wù)11.2　基于MapReduce的大規(guī)模短文本多分類算法11.2.1　短文本多分類算法工作原理簡(jiǎn)介11.2.2　并行化分類訓(xùn)練算法設(shè)計(jì)實(shí)現(xiàn)11.2.3　并行化分類預(yù)測(cè)算法設(shè)計(jì)實(shí)現(xiàn)11.3　基于MapReduce的大規(guī)?；蛐蛄斜葘?duì)算法11.3.1　基因序列比對(duì)算法簡(jiǎn)介11.3.2　并行化BLAST算法的設(shè)計(jì)與實(shí)現(xiàn)11.4　基于MapReduce的大規(guī)模城市路徑規(guī)劃算法11.4.1　問題背景和要求11.4.2　數(shù)據(jù)輸入11.4.3　程序設(shè)計(jì)要求11.4.4　算法設(shè)計(jì)總體框架和處理過程11.4.5　并行化算法的設(shè)計(jì)與實(shí)現(xiàn)11.5　基于MapReduce的大規(guī)模重復(fù)文檔檢測(cè)算法11.5.1　重復(fù)文檔檢測(cè)問題描述11.5.2　重復(fù)文檔檢測(cè)方法和算法設(shè)計(jì)11.5.3　重復(fù)文檔檢測(cè)并行化算法設(shè)計(jì)實(shí)現(xiàn)11.6　基于內(nèi)容的并行化圖像檢索算法與引擎11.6.1　基于內(nèi)容的圖像檢索問題概述11.6.2　圖像檢索方法和算法設(shè)計(jì)思路11.6.3　并行化圖像檢索算法實(shí)現(xiàn)11.7　基于MapReduce的大規(guī)模微博傳播分析11.7.1　微博分析問題背景與并行化處理過程11.7.2　并行化微博數(shù)據(jù)獲取算法的設(shè)計(jì)實(shí)現(xiàn)11.7.3　并行化微博數(shù)據(jù)分析算法的設(shè)計(jì)實(shí)現(xiàn)11.8　基于關(guān)聯(lián)規(guī)則挖掘的圖書推薦算法11.8.1　圖書推薦和關(guān)聯(lián)規(guī)則挖掘簡(jiǎn)介11.8.2　圖書頻繁項(xiàng)集挖掘算法設(shè)計(jì)與數(shù)據(jù)獲取11.8.3　圖書關(guān)聯(lián)規(guī)則挖掘并行化算法實(shí)現(xiàn)11.9　基于Hadoop的城市智能交通綜合應(yīng)用案例11.9.1　應(yīng)用案例概述11.9.2　案例一：交通事件檢測(cè)11.9.3　案例二：交通流統(tǒng)計(jì)分析功能11.9.4　案例三：道路旅行時(shí)間分析11.9.5　案例四：HBase實(shí)時(shí)查詢11.9.6　案例五：HBase& ；Endpoint快速統(tǒng)計(jì)11.9.7　案例六：利用Hive高速統(tǒng)計(jì)附錄附錄A　OpenMP并行程序設(shè)計(jì)簡(jiǎn)介附錄B　MPI并行程序設(shè)計(jì)簡(jiǎn)介附錄C　英特爾Apache& ；Hadoop*系統(tǒng)安裝手冊(cè)參考文獻(xiàn)