注冊 | 登錄讀書好,好讀書,讀好書!
讀書網(wǎng)-DuShu.com
當(dāng)前位置: 首頁出版圖書科學(xué)技術(shù)計(jì)算機(jī)/網(wǎng)絡(luò)數(shù)據(jù)庫R與Hadoop大數(shù)據(jù)分析實(shí)戰(zhàn)

R與Hadoop大數(shù)據(jù)分析實(shí)戰(zhàn)

R與Hadoop大數(shù)據(jù)分析實(shí)戰(zhàn)

定 價(jià):¥49.00

作 者: (?。¬ignesh Prajapati 著; 李明,王威揚(yáng),孫思棟,等 譯
出版社: 機(jī)械工業(yè)出版社
叢編項(xiàng): 大數(shù)據(jù)技術(shù)叢書
標(biāo) 簽: 計(jì)算機(jī)/網(wǎng)絡(luò) 數(shù)據(jù)倉庫與數(shù)據(jù)挖掘 數(shù)據(jù)庫

ISBN: 9787111483526 出版時(shí)間: 2014-11-01 包裝: 平裝
開本: 16開 頁數(shù): 219 字?jǐn)?shù):  

內(nèi)容簡介

  本書講述R語言與Hadoop技術(shù)結(jié)合應(yīng)用的權(quán)威書籍,由資深大數(shù)據(jù)分析師撰寫,不僅系統(tǒng)且深入地闡釋了R與Hadoop集成技術(shù)的工具、方法、原則和最佳實(shí)踐,而且對各種常見問題進(jìn)行深入分析,包含大量實(shí)踐案例,可操作性強(qiáng),能為用戶高效利用R語言與Hadoop技術(shù)提供有效指導(dǎo)。全書共7章,分為四部分:第一部分(基礎(chǔ)概念),包括第1~2章,主要講解R語言以及Hadoop的安裝過程、計(jì)算原理和基礎(chǔ)概念;第二部分(初級應(yīng)用),包括第3~4章,主要講解RHIPE、RHadoop以及streaming三種實(shí)現(xiàn)方案;第三部分(高級實(shí)例),包括第5~6章,主要以RHadoop為技術(shù)背景,講解多個實(shí)際應(yīng)用案例;第四部分(數(shù)據(jù)庫連接),包括第7章,主要講解在RHadoop下如何同各類數(shù)據(jù)庫進(jìn)行連接。

作者簡介

  Vignesh Prajapati 資深大數(shù)據(jù)分析師,現(xiàn)為Pingax公司顧問、Enjay公司軟件工程師,精通R、Hadoop、Mahout、Pig、Hive等技術(shù),在機(jī)器學(xué)習(xí)和大數(shù)據(jù)技術(shù)方面擁有豐富經(jīng)驗(yàn)。目前他專注于利用大數(shù)據(jù)和云技術(shù)為客戶提供有價(jià)值產(chǎn)品。譯者簡介李明畢業(yè)于沈陽理工大學(xué)信息工程學(xué)院電子科技與技術(shù)系,曾就職于凡客誠品、居然之家等大型電子商務(wù)公司,目前就職于優(yōu)酷土豆網(wǎng)。他的研究興趣是用R語言進(jìn)行互聯(lián)網(wǎng)數(shù)據(jù)分析/挖掘,撰寫過大量有關(guān)R語言基礎(chǔ)和高級應(yīng)用的文章,對互聯(lián)網(wǎng)數(shù)據(jù)統(tǒng)計(jì)系統(tǒng)的R語言實(shí)踐有較深研究,撰寫了《R語言與網(wǎng)站分析》一書。他的個人博客為www.bassary.com。王威揚(yáng)2008年畢業(yè)于清華大學(xué)航天航空學(xué)院,同年獲得清華大學(xué)經(jīng)濟(jì)學(xué)雙學(xué)位,2010年獲得芝加哥大學(xué)統(tǒng)計(jì)學(xué)碩士學(xué)位。畢業(yè)后曾先后任職于芝加哥大學(xué)計(jì)算機(jī)系、文思海輝技術(shù)有限公司、京東世紀(jì)貿(mào)易集團(tuán)有限公司及互聯(lián)網(wǎng)初創(chuàng)企業(yè),在科研、證券、銀行、電商、O2O行業(yè)負(fù)責(zé)數(shù)據(jù)倉庫建設(shè)及數(shù)據(jù)分析、挖掘工作,同時(shí)對高性能計(jì)算與開源分布式技術(shù)架構(gòu)有濃厚興趣。孫思棟中南財(cái)經(jīng)政法大學(xué)經(jīng)濟(jì)學(xué)、信息與計(jì)算科學(xué)雙學(xué)士,現(xiàn)為清華大學(xué)中國應(yīng)急管理研究基地助理研究員,參與了國家清史編撰委員會文獻(xiàn)等3個省部級科研項(xiàng)目,對非結(jié)構(gòu)化大數(shù)據(jù)處理有深入理解。

圖書目錄

譯者序
前言
審校者簡介
致謝
第1章 R和Hadoop入門 1
1.1 安裝R 2
1.2 安裝RStudio 3
1.3 R語言的功能特征 3
1.3.1 使用R程序包 3
1.3.2 執(zhí)行數(shù)據(jù)操作 3
1.3.3 日漸增多的社區(qū)支持 4
1.3.4 R語言數(shù)據(jù)建模 4
1.4 Hadoop的安裝 5
1.4.1 不同的Hadoop模式 6
1.4.2 Hadoop的安裝步驟 6
1.5 Hadoop的特點(diǎn) 12
1.5.1 HDFS簡介 13
1.5.2 MapReduce簡介 13
1.6 HDFS和MapReduce架構(gòu) 14
1.6.1 HDFS架構(gòu) 14
1.6.2 MapReduce架構(gòu) 15
1.6.3 通過圖示了解HDFS和MapReduce架構(gòu) 15
1.7 Hadoop的子項(xiàng)目 16
1.8 小結(jié) 19
第2章 編寫Hadoop MapReduce程序 20
2.1 MapReduce基礎(chǔ)概念 20
2.2 Hadoop MapReduce技術(shù)簡介 22
2.2.1 MapReduce中包含的實(shí)體 22
2.2.2 MapReduce中的主要執(zhí)行進(jìn)程 23
2.2.3 MapReduce的局限 25
2.2.4 MapReduce 可以解決的問題 26
2.2.5 使用Hadoop編程時(shí)用到不同的Java概念 26
2.3 Hadoop MapReduce原理 27
2.3.1 MapReduce對象 27
2.3.2 MapReduce中實(shí)現(xiàn)Map階段的執(zhí)行單元數(shù)目 28
2.3.3 MapReduce中實(shí)現(xiàn)Reduce階段的執(zhí)行單元數(shù)目 28
2.3.4 MapReduce的數(shù)據(jù)流 28
2.3.5 深入理解HadoopMapReduce 30
2.4 編寫Hadoop MapReduce示例程序 32
2.4.1 MapReduce job運(yùn)行的步驟 33
2.4.2 MapReduce可解決的商業(yè)問題 38
2.5 在R環(huán)境中編寫Hadoop MapReduce程序的方式 39
2.5.1 RHadoop 39
2.5.2 RHIPE 40
2.5.3 Hadoop streaming 40
2.6 小結(jié) 40
第3章 集成R和Hadoop 41
3.1 RHIPE 42
3.1.1 安裝RHIPE 42
3.1.2 RHIPE架構(gòu) 44
3.1.3 RHIPE實(shí)例 45
3.1.4 RHIPE參考函數(shù) 48
3.2 RHadoop 51
3.2.1 RHadoop架構(gòu) 51
3.2.2 安裝RHadoop 52
3.2.3 RHadoop案例 53
3.2.4 RHadoop參考函數(shù) 56
3.3 小結(jié) 58
第4章 Hadoop Streaming中使用R 59
4.1 Hadoop Streaming基礎(chǔ)概念 59
4.2 使用R運(yùn)行Hadoop streaming 62
4.2.1 MapReduce應(yīng)用程序基礎(chǔ) 63
4.2.2 如何編寫MapReduce應(yīng)用程序 65
4.2.3 如何運(yùn)行MapReduce應(yīng)用程序 67
4.2.4 如何瀏覽MapRecuce應(yīng)用程序的輸出 69
4.2.5 Hadoop MapReduce腳本的基礎(chǔ)R函數(shù) 70
4.2.6 管理Hadoop MapReduce任務(wù) 71
4.3 R語言擴(kuò)展包HadoopStreaming介紹 72
4.3.1 hsTableReader函數(shù) 73
4.3.2 hsKeyValReader函數(shù) 75
4.3.3 hasLineReader函數(shù) 75
4.3.4 運(yùn)行Hadoop streaming任務(wù) 78
4.3.5 執(zhí)行Hadoop Streaming任務(wù) 79
4.4 小結(jié) 79
第5章 利用R和Hadoop學(xué)習(xí)數(shù)據(jù)分析 80
5.1 數(shù)據(jù)分析項(xiàng)目生命周期 80
5.1.1 問題定義 81
5.1.2 設(shè)計(jì)數(shù)據(jù)需求 81
5.1.3 數(shù)據(jù)預(yù)處理 81
5.1.4 數(shù)據(jù)分析 82
5.1.5 數(shù)據(jù)可視化 82
5.2 數(shù)據(jù)分析問題 83
5.2.1 展示網(wǎng)頁分類 83
5.2.2 計(jì)算股市變動頻率 92
5.2.3 案例研究:預(yù)測推土機(jī)售價(jià) 98
5.3 小結(jié) 107
第6章 應(yīng)用機(jī)器學(xué)習(xí)做大數(shù)據(jù)分析 108
6.1 機(jī)器學(xué)習(xí)介紹 108
6.2 有監(jiān)督機(jī)器學(xué)習(xí)算法 109
6.2.1 線性回歸 109
6.2.2 logistic回歸 115
6.3 無監(jiān)督機(jī)器學(xué)習(xí)算法 118
6.4 推薦算法 123
6.4.1 在R中產(chǎn)生推薦商品的步驟 125
6.4.2 使用R和Hadoop產(chǎn)生推薦商品 128
6.5 小結(jié) 131
第7章 從各種數(shù)據(jù)庫中導(dǎo)入與導(dǎo)出數(shù)據(jù) 132
7.1 文件型數(shù)據(jù)庫 134
7.1.1 不同類型的文件 134
7.1.2 安裝R包 134
7.1.3 將數(shù)據(jù)導(dǎo)入R 134
7.1.4 從R導(dǎo)出數(shù)據(jù) 135
7.2 MySQL 135
7.2.1 安裝MySQL 135
7.2.2 安裝RMySQL 136
7.2.3 列出數(shù)據(jù)表及其結(jié)構(gòu) 136
7.2.4 導(dǎo)入數(shù)據(jù)進(jìn)R 136
7.2.5 數(shù)據(jù)操縱 137
7.3 Excel 137
7.3.1 安裝Excel 138
7.3.2 導(dǎo)入數(shù)據(jù)進(jìn)R 138
7.3.3 R和Excel的數(shù)據(jù)操縱 138
7.3.4 導(dǎo)出數(shù)據(jù)到Excel 138
7.4 MongoDB 138
7.4.1 安裝MongoDB 139
7.4.2 安裝rmongodb 141
7.4.3 導(dǎo)入數(shù)據(jù)進(jìn)R 141
7.4.4 數(shù)據(jù)操縱 142
7.5 SQLite 143
7.5.1 SQLite的特性 143
7.5.2 安裝SQLite 144
7.5.3 安裝RSQLite 144
7.5.4 將數(shù)據(jù)導(dǎo)師入R 144
7.5.5 數(shù)據(jù)操縱 145
7.6 PostgreSQL 145
7.6.1 PostgreSQL的特性 145
7.6.2 安裝PostgreSQL 145
7.6.3 安裝RPostgreSQL 146
7.6.4 從R導(dǎo)出數(shù)據(jù) 146
7.7 Hive 147
7.7.1 Hive的特性 147
7.7.2 安裝Hive 147
7.7.3 安裝RHive 149
7.7.4 RHive操作 149
7.8 HBase 150
7.8.1 HBase的特性 150
7.8.2 安裝HBase 151
7.8.3 安裝Thrift 152
7.8.4 安裝RHBase 153
7.8.5 導(dǎo)入數(shù)據(jù)進(jìn)R 153
7.8.6 數(shù)據(jù)操縱 153
7.9 小結(jié) 154
附錄 參考資源 155

本目錄推薦

掃描二維碼
Copyright ? 讀書網(wǎng) m.ranfinancial.com 2005-2020, All Rights Reserved.
鄂ICP備15019699號 鄂公網(wǎng)安備 42010302001612號