注冊 | 登錄讀書好,好讀書,讀好書!
讀書網(wǎng)-DuShu.com
當前位置: 首頁出版圖書科學技術(shù)計算機/網(wǎng)絡數(shù)據(jù)庫R與Hadoop大數(shù)據(jù)分析實戰(zhàn)

R與Hadoop大數(shù)據(jù)分析實戰(zhàn)

R與Hadoop大數(shù)據(jù)分析實戰(zhàn)

定 價:¥49.00

作 者: (?。¬ignesh Prajapati 著; 李明,王威揚,孫思棟,等 譯
出版社: 機械工業(yè)出版社
叢編項: 大數(shù)據(jù)技術(shù)叢書
標 簽: 計算機/網(wǎng)絡 數(shù)據(jù)倉庫與數(shù)據(jù)挖掘 數(shù)據(jù)庫

ISBN: 9787111483526 出版時間: 2014-11-01 包裝: 平裝
開本: 16開 頁數(shù): 219 字數(shù):  

內(nèi)容簡介

  本書講述R語言與Hadoop技術(shù)結(jié)合應用的權(quán)威書籍,由資深大數(shù)據(jù)分析師撰寫,不僅系統(tǒng)且深入地闡釋了R與Hadoop集成技術(shù)的工具、方法、原則和最佳實踐,而且對各種常見問題進行深入分析,包含大量實踐案例,可操作性強,能為用戶高效利用R語言與Hadoop技術(shù)提供有效指導。全書共7章,分為四部分:第一部分(基礎概念),包括第1~2章,主要講解R語言以及Hadoop的安裝過程、計算原理和基礎概念;第二部分(初級應用),包括第3~4章,主要講解RHIPE、RHadoop以及streaming三種實現(xiàn)方案;第三部分(高級實例),包括第5~6章,主要以RHadoop為技術(shù)背景,講解多個實際應用案例;第四部分(數(shù)據(jù)庫連接),包括第7章,主要講解在RHadoop下如何同各類數(shù)據(jù)庫進行連接。

作者簡介

  Vignesh Prajapati 資深大數(shù)據(jù)分析師,現(xiàn)為Pingax公司顧問、Enjay公司軟件工程師,精通R、Hadoop、Mahout、Pig、Hive等技術(shù),在機器學習和大數(shù)據(jù)技術(shù)方面擁有豐富經(jīng)驗。目前他專注于利用大數(shù)據(jù)和云技術(shù)為客戶提供有價值產(chǎn)品。譯者簡介李明畢業(yè)于沈陽理工大學信息工程學院電子科技與技術(shù)系,曾就職于凡客誠品、居然之家等大型電子商務公司,目前就職于優(yōu)酷土豆網(wǎng)。他的研究興趣是用R語言進行互聯(lián)網(wǎng)數(shù)據(jù)分析/挖掘,撰寫過大量有關R語言基礎和高級應用的文章,對互聯(lián)網(wǎng)數(shù)據(jù)統(tǒng)計系統(tǒng)的R語言實踐有較深研究,撰寫了《R語言與網(wǎng)站分析》一書。他的個人博客為www.bassary.com。王威揚2008年畢業(yè)于清華大學航天航空學院,同年獲得清華大學經(jīng)濟學雙學位,2010年獲得芝加哥大學統(tǒng)計學碩士學位。畢業(yè)后曾先后任職于芝加哥大學計算機系、文思海輝技術(shù)有限公司、京東世紀貿(mào)易集團有限公司及互聯(lián)網(wǎng)初創(chuàng)企業(yè),在科研、證券、銀行、電商、O2O行業(yè)負責數(shù)據(jù)倉庫建設及數(shù)據(jù)分析、挖掘工作,同時對高性能計算與開源分布式技術(shù)架構(gòu)有濃厚興趣。孫思棟中南財經(jīng)政法大學經(jīng)濟學、信息與計算科學雙學士,現(xiàn)為清華大學中國應急管理研究基地助理研究員,參與了國家清史編撰委員會文獻等3個省部級科研項目,對非結(jié)構(gòu)化大數(shù)據(jù)處理有深入理解。

圖書目錄

譯者序
前言
審校者簡介
致謝
第1章 R和Hadoop入門 1
1.1 安裝R 2
1.2 安裝RStudio 3
1.3 R語言的功能特征 3
1.3.1 使用R程序包 3
1.3.2 執(zhí)行數(shù)據(jù)操作 3
1.3.3 日漸增多的社區(qū)支持 4
1.3.4 R語言數(shù)據(jù)建模 4
1.4 Hadoop的安裝 5
1.4.1 不同的Hadoop模式 6
1.4.2 Hadoop的安裝步驟 6
1.5 Hadoop的特點 12
1.5.1 HDFS簡介 13
1.5.2 MapReduce簡介 13
1.6 HDFS和MapReduce架構(gòu) 14
1.6.1 HDFS架構(gòu) 14
1.6.2 MapReduce架構(gòu) 15
1.6.3 通過圖示了解HDFS和MapReduce架構(gòu) 15
1.7 Hadoop的子項目 16
1.8 小結(jié) 19
第2章 編寫Hadoop MapReduce程序 20
2.1 MapReduce基礎概念 20
2.2 Hadoop MapReduce技術(shù)簡介 22
2.2.1 MapReduce中包含的實體 22
2.2.2 MapReduce中的主要執(zhí)行進程 23
2.2.3 MapReduce的局限 25
2.2.4 MapReduce 可以解決的問題 26
2.2.5 使用Hadoop編程時用到不同的Java概念 26
2.3 Hadoop MapReduce原理 27
2.3.1 MapReduce對象 27
2.3.2 MapReduce中實現(xiàn)Map階段的執(zhí)行單元數(shù)目 28
2.3.3 MapReduce中實現(xiàn)Reduce階段的執(zhí)行單元數(shù)目 28
2.3.4 MapReduce的數(shù)據(jù)流 28
2.3.5 深入理解HadoopMapReduce 30
2.4 編寫Hadoop MapReduce示例程序 32
2.4.1 MapReduce job運行的步驟 33
2.4.2 MapReduce可解決的商業(yè)問題 38
2.5 在R環(huán)境中編寫Hadoop MapReduce程序的方式 39
2.5.1 RHadoop 39
2.5.2 RHIPE 40
2.5.3 Hadoop streaming 40
2.6 小結(jié) 40
第3章 集成R和Hadoop 41
3.1 RHIPE 42
3.1.1 安裝RHIPE 42
3.1.2 RHIPE架構(gòu) 44
3.1.3 RHIPE實例 45
3.1.4 RHIPE參考函數(shù) 48
3.2 RHadoop 51
3.2.1 RHadoop架構(gòu) 51
3.2.2 安裝RHadoop 52
3.2.3 RHadoop案例 53
3.2.4 RHadoop參考函數(shù) 56
3.3 小結(jié) 58
第4章 Hadoop Streaming中使用R 59
4.1 Hadoop Streaming基礎概念 59
4.2 使用R運行Hadoop streaming 62
4.2.1 MapReduce應用程序基礎 63
4.2.2 如何編寫MapReduce應用程序 65
4.2.3 如何運行MapReduce應用程序 67
4.2.4 如何瀏覽MapRecuce應用程序的輸出 69
4.2.5 Hadoop MapReduce腳本的基礎R函數(shù) 70
4.2.6 管理Hadoop MapReduce任務 71
4.3 R語言擴展包HadoopStreaming介紹 72
4.3.1 hsTableReader函數(shù) 73
4.3.2 hsKeyValReader函數(shù) 75
4.3.3 hasLineReader函數(shù) 75
4.3.4 運行Hadoop streaming任務 78
4.3.5 執(zhí)行Hadoop Streaming任務 79
4.4 小結(jié) 79
第5章 利用R和Hadoop學習數(shù)據(jù)分析 80
5.1 數(shù)據(jù)分析項目生命周期 80
5.1.1 問題定義 81
5.1.2 設計數(shù)據(jù)需求 81
5.1.3 數(shù)據(jù)預處理 81
5.1.4 數(shù)據(jù)分析 82
5.1.5 數(shù)據(jù)可視化 82
5.2 數(shù)據(jù)分析問題 83
5.2.1 展示網(wǎng)頁分類 83
5.2.2 計算股市變動頻率 92
5.2.3 案例研究:預測推土機售價 98
5.3 小結(jié) 107
第6章 應用機器學習做大數(shù)據(jù)分析 108
6.1 機器學習介紹 108
6.2 有監(jiān)督機器學習算法 109
6.2.1 線性回歸 109
6.2.2 logistic回歸 115
6.3 無監(jiān)督機器學習算法 118
6.4 推薦算法 123
6.4.1 在R中產(chǎn)生推薦商品的步驟 125
6.4.2 使用R和Hadoop產(chǎn)生推薦商品 128
6.5 小結(jié) 131
第7章 從各種數(shù)據(jù)庫中導入與導出數(shù)據(jù) 132
7.1 文件型數(shù)據(jù)庫 134
7.1.1 不同類型的文件 134
7.1.2 安裝R包 134
7.1.3 將數(shù)據(jù)導入R 134
7.1.4 從R導出數(shù)據(jù) 135
7.2 MySQL 135
7.2.1 安裝MySQL 135
7.2.2 安裝RMySQL 136
7.2.3 列出數(shù)據(jù)表及其結(jié)構(gòu) 136
7.2.4 導入數(shù)據(jù)進R 136
7.2.5 數(shù)據(jù)操縱 137
7.3 Excel 137
7.3.1 安裝Excel 138
7.3.2 導入數(shù)據(jù)進R 138
7.3.3 R和Excel的數(shù)據(jù)操縱 138
7.3.4 導出數(shù)據(jù)到Excel 138
7.4 MongoDB 138
7.4.1 安裝MongoDB 139
7.4.2 安裝rmongodb 141
7.4.3 導入數(shù)據(jù)進R 141
7.4.4 數(shù)據(jù)操縱 142
7.5 SQLite 143
7.5.1 SQLite的特性 143
7.5.2 安裝SQLite 144
7.5.3 安裝RSQLite 144
7.5.4 將數(shù)據(jù)導師入R 144
7.5.5 數(shù)據(jù)操縱 145
7.6 PostgreSQL 145
7.6.1 PostgreSQL的特性 145
7.6.2 安裝PostgreSQL 145
7.6.3 安裝RPostgreSQL 146
7.6.4 從R導出數(shù)據(jù) 146
7.7 Hive 147
7.7.1 Hive的特性 147
7.7.2 安裝Hive 147
7.7.3 安裝RHive 149
7.7.4 RHive操作 149
7.8 HBase 150
7.8.1 HBase的特性 150
7.8.2 安裝HBase 151
7.8.3 安裝Thrift 152
7.8.4 安裝RHBase 153
7.8.5 導入數(shù)據(jù)進R 153
7.8.6 數(shù)據(jù)操縱 153
7.9 小結(jié) 154
附錄 參考資源 155

本目錄推薦

掃描二維碼
Copyright ? 讀書網(wǎng) m.ranfinancial.com 2005-2020, All Rights Reserved.
鄂ICP備15019699號 鄂公網(wǎng)安備 42010302001612號