注冊(cè) | 登錄讀書好,好讀書,讀好書!
讀書網(wǎng)-DuShu.com
當(dāng)前位置: 首頁出版圖書科學(xué)技術(shù)計(jì)算機(jī)/網(wǎng)絡(luò)軟件與程序設(shè)計(jì)R大數(shù)據(jù)分析實(shí)用指南(R語言)

R大數(shù)據(jù)分析實(shí)用指南(R語言)

R大數(shù)據(jù)分析實(shí)用指南(R語言)

定 價(jià):¥99.00

作 者: [英] 西蒙·沃克威克(Simon Walkowiak) 著,顧星竹,劉見康 譯
出版社: 人民郵電出版社
叢編項(xiàng):
標(biāo) 簽: 暫缺

ISBN: 9787115509253 出版時(shí)間: 2019-05-01 包裝: 平裝
開本: 16開 頁數(shù): 373 字?jǐn)?shù):  

內(nèi)容簡(jiǎn)介

  R是一個(gè)強(qiáng)大的、開源的、函數(shù)式編程語言,可以用于廣泛的編程任務(wù)。一般來講,R語言的應(yīng)用主要在數(shù)據(jù)統(tǒng)計(jì)與分析、機(jī)器學(xué)習(xí)、高性能計(jì)算等方面。R語言已經(jīng)在多個(gè)領(lǐng)域贏得了認(rèn)可,同時(shí)也基于其開源、免費(fèi)的特點(diǎn)不斷地發(fā)展壯大。本書通過9章內(nèi)容,循序漸進(jìn)地揭示了大數(shù)據(jù)的概念,介紹了如何使用R進(jìn)行數(shù)據(jù)處理,如何創(chuàng)建Hadoop虛擬機(jī),如何建立和部署SQL數(shù)據(jù)庫,同時(shí)還介紹了MongoDB、HBase、Spark、Hive相關(guān)的內(nèi)容,并介紹了R的潛在應(yīng)用場(chǎng)景。本書適合中級(jí)數(shù)據(jù)分析師、數(shù)據(jù)工程師、統(tǒng)計(jì)學(xué)家、研究人員和數(shù)據(jù)科學(xué)家閱讀,需要讀者具備數(shù)據(jù)分析、數(shù)據(jù)管理和大數(shù)據(jù)算法的基本知識(shí)。

作者簡(jiǎn)介

  Simon Walkowiak是Mind Project公司的認(rèn)知神經(jīng)系統(tǒng)科學(xué)家和總經(jīng)理,Mind Project公司是一家位于英國(guó)倫敦的大數(shù)據(jù)預(yù)測(cè)分析咨詢公司。在此之前,Simon 是歐洲的社會(huì)經(jīng)濟(jì)數(shù)據(jù)庫—— 英國(guó)科研數(shù)據(jù)服務(wù)(UKDS,位于埃塞克斯大學(xué))的數(shù)據(jù)主管人。Simon在處理和管理大規(guī)模數(shù)據(jù)集方面擁有豐富的經(jīng)驗(yàn),例如普查、傳感器、智能電表數(shù)據(jù)、電信數(shù)據(jù)和眾所周知的政治和社會(huì)調(diào)查。Simon在公共機(jī)構(gòu)和國(guó)際公司開設(shè)了大量的數(shù)據(jù)科學(xué)和 R 培訓(xùn)課程。他還在英國(guó)的幾所主要的大學(xué)以及由分析與數(shù)據(jù)科學(xué)研究所(Institute of Analytics and Data Science,IADS)組織的大數(shù)據(jù)分析暑期班教授大數(shù)據(jù)方法課程。

圖書目錄

第 1章 大數(shù)據(jù)時(shí)代 1
1.1 大數(shù)據(jù)——重新定義怪物 1
1.2 大數(shù)據(jù)工具箱——為大而生 4
1.2.1 Hadoop——屋中之象 4
1.2.2 數(shù)據(jù)庫 6
1.2.3 Hadoop的Spark化 7
1.3 R語言——大數(shù)據(jù)的無冕之王 8
1.4 小結(jié) 13
第 2章 R編程語言與統(tǒng)計(jì)環(huán)境的介紹 14
2.1 學(xué)習(xí)R 14
2.2 R語言基礎(chǔ)回顧 16
2.2.1 準(zhǔn)備R和RStudio 16
2.2.2 R語言數(shù)據(jù)結(jié)構(gòu) 19
2.2.3 導(dǎo)出R數(shù)據(jù)對(duì)象 29
2.3 應(yīng)用數(shù)據(jù)科學(xué)與R 33
2.3.1 導(dǎo)入不同格式的數(shù)據(jù) 34
2.3.2 探索性數(shù)據(jù)分析 35
2.3.3 數(shù)據(jù)聚合和列聯(lián)表 37
2.3.4 假設(shè)檢驗(yàn)和統(tǒng)計(jì)推斷 41
2.3.5 數(shù)據(jù)可視化包 52
2.4 小結(jié) 53
第3章 由內(nèi)而外釋放R的力量 54
3.1 R的傳統(tǒng)局限性 54
3.1.1 內(nèi)存外的數(shù)據(jù) 55
3.1.2 處理速度 55
3.2 超越內(nèi)存限制 56
3.2.1 使用ff和ffbase軟件包進(jìn)行數(shù)據(jù)轉(zhuǎn)換和聚合 56
3.2.2 使用ff和ffbase包的廣義線性模型 65
3.2.3 使用bigmemory包擴(kuò)展內(nèi)存 73
3.3 R的并行 81
3.3.1 從bigmemory到更快的計(jì)算 82
3.3.2 未來的R并行處理 89
3.4 使用data.table包和其他工具提高R性能 91
3.4.1 使用data.table包快速數(shù)據(jù)導(dǎo)入和操作 91
3.4.2 編寫更好的R代碼 98
3.5 小結(jié) 99
第4章 R相關(guān)的Hadoop和MapReduce框架 100
4.1 Hadoop架構(gòu) 100
4.1.1 Hadoop分布式文件系統(tǒng) 101
4.1.2 MapReduce框架 101
4.1.3 其他Hadoop原生工具 104
4.1.4 學(xué)習(xí)Hadoop 105
4.2 云上的單節(jié)點(diǎn)Hadoop 106
4.2.1 在Azure上部署Hortonworks Sandbox 106
4.2.2 Java語言的Hadoop單詞記數(shù)示例 119
4.2.3 R語言的Hadoop單詞記數(shù)示例 127
4.3 HDInsight—— Azure上的多節(jié)點(diǎn)Hadoop集群 145
4.3.1 創(chuàng)建第 一個(gè)HDInsight集群 145
4.3.2 智能電表數(shù)據(jù)分析示例——在HDInsight集群上使用R 164
4.4 小結(jié) 175
第5章 R與關(guān)系型數(shù)據(jù)庫管理系統(tǒng)(RDBMS) 176
5.1 關(guān)系型數(shù)據(jù)庫管理系統(tǒng)(RDBMS) 176
5.1.1 常用RDBMS簡(jiǎn)介 177
5.1.2 結(jié)構(gòu)化查詢語言(SQL) 178
5.2 用SQLite 連接R 179
5.2.1 準(zhǔn)備并導(dǎo)入數(shù)據(jù)到本地SQLite數(shù)據(jù)庫 179
5.2.2 通過RStudio連接SQLite數(shù)據(jù)庫 182
5.3 在Amazon EC2實(shí)例中連接MariaDB和R 186
5.3.1 準(zhǔn)備EC2實(shí)例和RStudio服務(wù)器 186
5.3.2 準(zhǔn)備MariaDB和數(shù)據(jù) 188
5.3.3 連接MariaDB和RStudio 195
5.4 連接Amazon RDS上的PostgreSQL和R 209
5.4.1 啟動(dòng)一個(gè)Amazon RDS數(shù)據(jù)庫實(shí)例 209
5.4.2 準(zhǔn)備并上傳數(shù)據(jù)到Amazon RDS上 214
5.4.3 從RStudio 遠(yuǎn)程查詢Amazon RDS上的PostgreSQL 222
5.5 小結(jié) 232
第6章 R與非關(guān)系型數(shù)據(jù)庫 233
6.1 NoSQL數(shù)據(jù)庫簡(jiǎn)介 233
6.2 用R操作MongoDB 236
6.2.1 MongoDB簡(jiǎn)介 236
6.2.2 在Amazon EC2上安裝MongoDB并與R連接 237
6.2.3 使用MongoDB和R處理大數(shù)據(jù) 240
6.3 Hbase與R 268
6.3.1 Azure HDInsight與HBase和RStudio Server 268
6.3.2 將數(shù)據(jù)導(dǎo)入HDFS和HBase 274
6.3.3 使用rhbase包讀取和查閱Hbase 277
6.4 小結(jié) 282
第7章 比Hadoop更快——使用R編寫Spark 283
7.1 為大數(shù)據(jù)分析服務(wù)的Spark 283
7.2 多節(jié)點(diǎn)HDInsight集群上使用R的Spark 284
7.2.1 部署使用支持Spark和R/RStudio的HDInsight 284
7.2.2 將數(shù)據(jù)讀入HDFS和Hive 289
7.2.3 使用SparkR分析灣區(qū)共享單車數(shù)據(jù) 299
7.3 小結(jié) 315
第8章 R語言大數(shù)據(jù)機(jī)器學(xué)習(xí) 316
8.1 機(jī)器學(xué)習(xí)是什么 316
8.1.1 機(jī)器學(xué)習(xí)算法 316
8.1.2 監(jiān)督和無監(jiān)督機(jī)器學(xué)習(xí)方法 317
8.1.3 分類和聚類算法 318
8.1.4 R機(jī)器學(xué)習(xí)方法 318
8.1.5 大數(shù)據(jù)機(jī)器學(xué)習(xí)工具 319
8.2 在HDInsight集群中使用Spark和R的GLM示例 320
8.2.1 準(zhǔn)備Spark群集并從HDFS讀取數(shù)據(jù) 320
8.2.2 Spark中的R語言邏輯回歸 325
8.3 R中基于Hadoop H2O的樸素貝葉斯 336
8.3.1 在R中運(yùn)行Hadoop上的H2O實(shí)例 336
8.3.2 讀取和探索H2O中的數(shù)據(jù) 340
8.3.3 R中基于H2O的樸素貝葉斯 343
8.4 R中基于Hadoop H2O的神經(jīng)網(wǎng)絡(luò) 355
8.4.1 神經(jīng)網(wǎng)絡(luò)的工作原理 355
8.4.2 在H2O上運(yùn)行神經(jīng)網(wǎng)絡(luò)模型 356
8.5 小結(jié) 364
第9章 R語言的未來——大數(shù)據(jù)、快數(shù)據(jù)、智能數(shù)據(jù) 365
9.1 R大數(shù)據(jù)分析的現(xiàn)狀 365
9.1.1 超過單機(jī)內(nèi)存的數(shù)據(jù) 365
9.1.2 更快的R數(shù)據(jù)處理 367
9.1.3 Hadoop與R 367
9.1.4 Spark與R 368
9.1.5 R與數(shù)據(jù)庫 369
9.1.6 機(jī)器學(xué)習(xí)與R 370
9.2 R的未來 370
9.2.1 大數(shù)據(jù) 370
9.2.2 快數(shù)據(jù) 371
9.2.3 智能數(shù)據(jù) 372
9.3 如何提升 372
9.4 小結(jié) 373

本目錄推薦

掃描二維碼
Copyright ? 讀書網(wǎng) m.ranfinancial.com 2005-2020, All Rights Reserved.
鄂ICP備15019699號(hào) 鄂公網(wǎng)安備 42010302001612號(hào)