注冊(cè) | 登錄讀書好,好讀書,讀好書!
讀書網(wǎng)-DuShu.com
當(dāng)前位置: 首頁(yè)出版圖書科學(xué)技術(shù)計(jì)算機(jī)/網(wǎng)絡(luò)軟件與程序設(shè)計(jì)大數(shù)據(jù)分析(基于R語(yǔ)言)

大數(shù)據(jù)分析(基于R語(yǔ)言)

大數(shù)據(jù)分析(基于R語(yǔ)言)

定 價(jià):¥89.00

作 者: [印] 塞瑪·阿查亞(Seema Acharya) 著
出版社: 清華大學(xué)出版社
叢編項(xiàng):
標(biāo) 簽: 暫缺

ISBN: 9787302557326 出版時(shí)間: 2020-08-01 包裝: 平裝
開本: 16開 頁(yè)數(shù): 492 字?jǐn)?shù):  

內(nèi)容簡(jiǎn)介

  這本書主要面向計(jì)算機(jī)科學(xué)和工程專業(yè)的本科生。同時(shí),這本書也可供IT專業(yè)數(shù)據(jù)分析師、企業(yè)決策人員和業(yè)務(wù)分析人員參考。 本書由Acharya編著,介紹了R語(yǔ)言作為非穩(wěn)態(tài)數(shù)據(jù)分析和可視化工具的強(qiáng)大功能,并向?qū)W習(xí)者介紹了幾種數(shù)據(jù)挖掘算法和可視化方法。

作者簡(jiǎn)介

  Seema Acharya是Infosys有限公司教育、培訓(xùn)和評(píng)估部的高級(jí)校長(zhǎng)。她是一位技術(shù)傳道者、學(xué)習(xí)戰(zhàn)略家,也是一位擁有超過(guò)15年的信息技術(shù)行業(yè)學(xué)習(xí)/教育服務(wù)經(jīng)驗(yàn)的作者。她在全球范圍內(nèi)設(shè)計(jì)和實(shí)施了幾個(gè)大規(guī)模的能力發(fā)展項(xiàng)目,包括組織能力需求分析、概念化、設(shè)計(jì)、開發(fā)和部署能力發(fā)展項(xiàng)目。她的興趣和專長(zhǎng)主要包括商業(yè)智能和大數(shù)據(jù),以及分析技術(shù),如數(shù)據(jù)倉(cāng)庫(kù)、數(shù)據(jù)挖掘、數(shù)據(jù)分析、文本挖掘和數(shù)據(jù)可視化

圖書目錄

第1章R概述\\\\1
1.1概述1
1.1.1R是什么1
1.1.2為什么是R1
1.1.3R相對(duì)于其他編程語(yǔ)言的優(yōu)勢(shì)3
1.2下載并安裝R4
1.2.1下載R4
1.2.2安裝R6
1.2.3R的主要文件類型7
1.3集成開發(fā)環(huán)境和文本編輯器8
1.3.1R Studio8
1.3.2具有StatET插件的Eclipse9
1.4R中軟件包的處理10
1.4.1R軟件包的安裝11
1.4.2準(zhǔn)備開始的一些函數(shù)12
本章小結(jié)17
關(guān)鍵術(shù)語(yǔ)18
鞏固練習(xí)18
單項(xiàng)選擇題參考答案19

第2章開始使用R\\\\20
2.1概述20
2.2處理目錄20
2.2.1getwd()命令20
2.2.2setwd()命令21
2.2.3dir()函數(shù)21
2.3R中的數(shù)據(jù)類型23
2.3.1強(qiáng)制類型轉(zhuǎn)換26
2.3.2引入變量和ls()函數(shù)26
2.4數(shù)據(jù)探索的一些命令27
2.4.1加載內(nèi)部數(shù)據(jù)集27
本章小結(jié)38
關(guān)鍵術(shù)語(yǔ)38
實(shí)戰(zhàn)練習(xí)38
大數(shù)據(jù)分析——基于R語(yǔ)言目錄
第3章在R中加載及處理數(shù)據(jù)\\\\40
3.1概述40
3.2分析數(shù)據(jù)處理的挑戰(zhàn)40
3.2.1數(shù)據(jù)格式41
3.2.2數(shù)據(jù)質(zhì)量41
3.2.3項(xiàng)目范圍41
3.2.4利益方期望的輸出結(jié)果的管理41
3.3表達(dá)式、變量和函數(shù)42
3.3.1表達(dá)式42
3.3.2邏輯值42
3.3.3日期43
3.3.4變量45
3.3.5函數(shù)45
3.3.6處理數(shù)據(jù)中的文本48
3.4R中缺失值的處理50
3.5利用as操作符改變數(shù)據(jù)的結(jié)構(gòu)51
3.6向量53
3.6.1順序向量54
3.6.2rep()函數(shù)54
3.6.3向量訪問(wèn)55
3.6.4向量名56
3.6.5向量的算術(shù)運(yùn)算57
3.6.6向量循環(huán)58
3.7矩陣60
3.7.1矩陣訪問(wèn)61
3.8因子65
3.8.1創(chuàng)建因子65
3.9列表67
3.9.1列表標(biāo)簽和值68
3.9.2從列表中添加和刪除元素69
3.9.3列表的大小70
3.10一些常見的分析任務(wù)72
3.10.1探索數(shù)據(jù)集72
3.10.2數(shù)據(jù)集的條件操作72
3.10.3合并數(shù)據(jù)75
3.11變量的聚合和分組處理76
3.11.1aggregate()函數(shù)76
3.11.2tapply()函數(shù)76
3.12使用R進(jìn)行簡(jiǎn)單分析78
3.12.1輸入78
3.12.2描述數(shù)據(jù)結(jié)構(gòu)78
3.12.3描述變量結(jié)構(gòu)79
3.12.4輸出82
3.13讀取數(shù)據(jù)的方法83
3.13.1CSV和電子表格83
3.13.2從包中讀取數(shù)據(jù)86
3.13.3從Web/API中讀取數(shù)據(jù)86
3.13.4讀取一個(gè)JSON(JavaScript Object Notation)文檔88
3.13.5讀取XML文件89
3.14數(shù)據(jù)輸入的R GUI的比較92
3.15使用R連接數(shù)據(jù)庫(kù)及商務(wù)智能系統(tǒng)94
3.15.1RODBC95
3.15.2使用MySQL和R96
3.15.3使用PostgreSQL和R96
3.15.4使用SQLite和R97
3.15.5使用JasperDB和R97
3.15.6使用Pentaho和R98
3.16案例研究: 日志分析99
本章小結(jié)101
關(guān)鍵術(shù)語(yǔ)103
鞏固練習(xí)103
單項(xiàng)選擇題參考答案106

第4章在R中探索數(shù)據(jù)\\\\107
4.1概述107
4.2數(shù)據(jù)框107
4.2.1數(shù)據(jù)框訪問(wèn)108
4.2.2數(shù)據(jù)框排序110
4.3用于理解數(shù)據(jù)框中數(shù)據(jù)的R函數(shù)111
4.3.1dim()函數(shù)111
4.3.2str()函數(shù)111
4.3.3summary()函數(shù)112
4.3.4names()函數(shù)112
4.3.5head()函數(shù)112
4.3.6tail()函數(shù)113
4.3.7edit()函數(shù)113
4.4加載數(shù)據(jù)框114
4.4.1從CSV文件中讀取數(shù)據(jù)114
4.4.2獲取數(shù)據(jù)框子集115
4.4.3從TSV文件中讀取數(shù)據(jù)115
4.4.4從表格讀取數(shù)據(jù)116
4.4.5合并數(shù)據(jù)框117
4.5探索數(shù)據(jù)117
4.6數(shù)據(jù)匯總118
4.7查找缺失值122
4.8無(wú)效值和異常值124
4.9描述性統(tǒng)計(jì)126
4.9.1數(shù)據(jù)全距126
4.9.2頻數(shù)126
4.9.3均值和中值127
4.9.4標(biāo)準(zhǔn)差131
4.9.5眾數(shù)132
4.10利用可視化發(fā)現(xiàn)數(shù)據(jù)中的問(wèn)題134
4.10.1對(duì)單變量的分布進(jìn)行可視化檢查135
4.10.2直方圖136
4.10.3密度圖138
4.10.4柱狀圖140
本章小結(jié)144
關(guān)鍵術(shù)語(yǔ)145
鞏固練習(xí)145
單項(xiàng)選擇題參考答案147

第5章線性回歸——使用R\\\\148
5.1概述148
5.2模型擬合148
5.3線性回歸149
5.3.1R中的lm()函數(shù)149
5.4線性回歸的假設(shè)161
5.5驗(yàn)證線性假設(shè)162
5.5.1使用散點(diǎn)圖162
5.5.2使用殘差與擬合圖162
5.5.3使用正態(tài)QQ圖162
5.5.4使用位置尺度圖163
5.5.5使用殘差與杠桿圖164
案例研究: 推薦引擎169
本章小結(jié)170
關(guān)鍵術(shù)語(yǔ)171
鞏固練習(xí)171
實(shí)戰(zhàn)練習(xí)172
單項(xiàng)選擇題參考答案172

第6章邏輯回歸\\\\173
6.1概述173
6.2什么是回歸174
6.2.1為什么要使用邏輯回歸175
6.2.2為什么不能使用線性回歸176
6.2.3邏輯回歸的假設(shè)176
6.3廣義線性模型概述177
6.4什么是邏輯回歸179
6.4.1邏輯回歸的使用179
6.4.2二項(xiàng)邏輯回歸179
6.4.3Logistic函數(shù)179
6.4.4Logit函數(shù)180
6.4.5似然函數(shù)181
6.4.6極大似然估計(jì)183
6.5二元邏輯回歸185
6.5.1二元邏輯回歸概述185
6.5.2具有單分類預(yù)測(cè)變量的二元邏輯回歸186
6.5.3三維列聯(lián)表和k維列聯(lián)表的二元邏輯回歸191
6.5.4具有連續(xù)協(xié)變量的二元邏輯回歸191
6.6診斷邏輯回歸195
6.6.1殘差195
6.6.2擬合性能測(cè)試196
6.6.3受試者工作特征曲線196
6.7多元邏輯回歸模型197
案例研究: 受眾/顧客洞察分析204
本章小結(jié)206
關(guān)鍵術(shù)語(yǔ)207
鞏固練習(xí)208
單項(xiàng)選擇題參考答案210

第7章決策樹\\\\211
7.1概述211
7.2什么是決策樹211
7.3決策樹在R中的表示216
7.3.1使用party包進(jìn)行表示216
7.3.2使用rpart包進(jìn)行表示226
7.4決策樹學(xué)習(xí)中的問(wèn)題解決方案228
7.4.1由屬性值對(duì)表示的實(shí)例228
7.4.2目標(biāo)函數(shù)具有離散輸出值229
7.4.3析取描述229
7.4.4訓(xùn)練數(shù)據(jù)可能包含錯(cuò)誤或缺失屬性值229
7.5基本決策樹學(xué)習(xí)算法230
7.5.1ID3算法231
7.5.2哪個(gè)屬性是最好的分類器232
7.6度量特征233
7.6.1熵度量同質(zhì)性233
7.6.2信息增益——度量熵的期望約簡(jiǎn)234
7.7決策樹學(xué)習(xí)中的假設(shè)空間搜索236
7.8決策樹學(xué)習(xí)中的歸納偏差237
7.8.1優(yōu)選偏差與限定偏差237
7.9為什么首選短假設(shè)238
7.9.1選擇短假設(shè)的原因238
7.9.2爭(zhēng)論的問(wèn)題238
7.10決策樹學(xué)習(xí)中的問(wèn)題238
7.10.1過(guò)擬合238
7.10.2合并連續(xù)值屬性241
7.10.3選擇屬性的其他方法241
7.10.4處理具有缺失屬性值的訓(xùn)練樣本242
7.10.5處理具有不同成本的屬性242
案例研究: 幫助零售商預(yù)測(cè)店內(nèi)客流243
本章小結(jié)244
關(guān)鍵術(shù)語(yǔ)245
鞏固練習(xí)246
實(shí)戰(zhàn)練習(xí)247
單項(xiàng)選擇題參考答案248

第8章R中的時(shí)間序列\(zhòng)\\\249
8.1概述249
8.2時(shí)間序列數(shù)據(jù)250
8.2.1數(shù)據(jù)可視化的基本R函數(shù)250
8.2.2用于數(shù)據(jù)操作的基本R函數(shù)259
8.2.3時(shí)間序列線性濾波267
8.3讀取時(shí)間序列數(shù)據(jù)269
8.3.1scan()函數(shù)269
8.3.2ts()函數(shù)269
8.4繪制時(shí)間序列數(shù)據(jù)271
8.5分解時(shí)間序列數(shù)據(jù)272
8.5.1分解非季節(jié)性數(shù)據(jù)272
8.5.2分解季節(jié)性數(shù)據(jù)274
8.5.3季節(jié)性調(diào)整277
8.5.4回歸分析278
8.6使用指數(shù)平滑進(jìn)行預(yù)測(cè)279
8.6.1簡(jiǎn)單指數(shù)平滑279
8.6.2Holts指數(shù)平滑279
8.6.3HoltWinters指數(shù)平滑280
8.7ARIMA模型281
8.7.1差分時(shí)間序列282
8.7.2選擇一個(gè)候選ARIMA模型282
8.7.3使用ARIMA模型進(jìn)行預(yù)測(cè)284
8.7.4自相關(guān)性和偏自相關(guān)性分析284
8.7.5診斷檢驗(yàn)285
實(shí)踐任務(wù)286
案例研究: 保險(xiǎn)欺詐檢測(cè)292
本章小結(jié)293
關(guān)鍵術(shù)語(yǔ)295
鞏固練習(xí)295
單項(xiàng)選擇題參考答案299

第9章聚類\\\\300
9.1概述300
9.2什么是聚類300
9.3聚類中的基本概念301
9.3.1點(diǎn)、空間和距離302
9.3.2聚類策略305
9.3.3維數(shù)災(zāi)難306
9.3.4向量之間的夾角307
9.4分層聚類308
9.4.1歐氏空間中的分層聚類308
9.4.2分層聚類的效率312
9.4.3控制分層聚類的其他規(guī)則313
9.4.4非歐氏空間的分層聚類314
9.5kmeans算法314
9.5.1kmeans基本原理314
9.5.2初始化kmeans集群319
9.5.3選擇k的正確值319
9.5.4Bradley、Fayyad和Reina算法319
9.5.5使用BFR算法處理數(shù)據(jù)320
9.6CURE算法321
9.6.1CURE中的初始化321
9.6.2實(shí)現(xiàn)CURE算法321
9.7非歐氏空間中的聚類322
9.7.1在GRGPF算法中表示集群323
9.7.2初始化聚類樹323
9.7.3在GRGPF算法中增加點(diǎn)323
9.7.4拆分和合并集群324
9.8流和并行數(shù)據(jù)的聚類325
9.8.1流計(jì)算模型325
9.8.2流聚類算法326
9.8.3并行環(huán)境中的聚類328
案例研究: 個(gè)性化產(chǎn)品推薦329
本章小結(jié)330
關(guān)鍵術(shù)語(yǔ)331
鞏固練習(xí)332
實(shí)戰(zhàn)練習(xí)333
單項(xiàng)選擇題參考答案339

第10章關(guān)聯(lián)規(guī)則\\\\340
10.1概述340
10.2頻繁項(xiàng)集341
10.2.1關(guān)聯(lián)規(guī)則341
10.2.2規(guī)則評(píng)估度量標(biāo)準(zhǔn)342
10.2.3蠻力法344
10.2.4兩步法344
10.2.5Apiori算法346
10.3數(shù)據(jù)結(jié)構(gòu)概述350
10.3.1表示項(xiàng)集的集合351
10.3.2事務(wù)數(shù)據(jù)354
10.3.3關(guān)聯(lián): 項(xiàng)集和規(guī)則項(xiàng)356
10.4挖掘算法接口358
10.4.1apriori()函數(shù)358
10.4.2eclat()函數(shù)371
10.5輔助函數(shù)372
10.5.1計(jì)算項(xiàng)集的支持度372
10.5.2規(guī)則推導(dǎo)372
10.6事務(wù)抽樣374
10.7生成人工事務(wù)數(shù)據(jù)375
10.7.1子項(xiàng)集、超項(xiàng)集、最大項(xiàng)集和閉項(xiàng)集375
10.8興趣度的其他度量378
10.9基于距離聚類事務(wù)和關(guān)聯(lián)379
案例研究: 使用戶生成的內(nèi)容變得有價(jià)值381
本章小結(jié)382
關(guān)鍵術(shù)語(yǔ)383
鞏固練習(xí)384
實(shí)戰(zhàn)練習(xí)386
單項(xiàng)選擇題參考答案393

第11章文本挖掘\\\\394
11.1概述394
11.2文本挖掘的定義395
11.2.1文檔集395
11.2.2文檔395
11.2.3文檔特征395
11.2.4領(lǐng)域和背景知識(shí)396
11.3文本挖掘中的一些挑戰(zhàn)396
11.4文本挖掘和數(shù)據(jù)挖掘396
11.5R中的文本挖掘396
11.6文本挖掘的總體架構(gòu)406
11.6.1預(yù)處理任務(wù)406
11.6.2核心挖掘操作407
11.6.3表示層成分與瀏覽功能407
11.6.4精簡(jiǎn)技術(shù)407
11.7R中文檔的預(yù)處理407
11.8核心文本挖掘操作409
11.8.1分布(比例)410
11.8.2頻繁概念集410
11.8.3近頻繁概念集410
11.8.4關(guān)聯(lián)411
11.9文本挖掘的背景知識(shí)413
11.10文本挖掘查詢語(yǔ)言413
11.11挖掘頻繁模式、關(guān)聯(lián)和相關(guān)性的基本概念和方法413
11.11.1基本概念414
11.11.2購(gòu)物籃分析414
11.11.3關(guān)聯(lián)規(guī)則415
11.12頻繁項(xiàng)集、閉項(xiàng)集和關(guān)聯(lián)規(guī)則416
11.12.1頻繁項(xiàng)集416
11.12.2閉項(xiàng)集416
11.12.3關(guān)聯(lián)規(guī)則挖掘416
11.13頻繁項(xiàng)集的挖掘方法417
11.13.1Apriori算法: 發(fā)現(xiàn)頻繁項(xiàng)集417
11.13.2從頻繁項(xiàng)集生成關(guān)聯(lián)規(guī)則419
11.13.3提高Apriori算法的效率421
11.13.4挖掘頻繁項(xiàng)集的模式生長(zhǎng)方法422
11.13.5使用垂直數(shù)據(jù)格式挖掘頻繁項(xiàng)集422
11.13.6挖掘閉模式和最大模式423
11.14模式評(píng)估方法424
11.14.1強(qiáng)規(guī)則并不一定有趣425
11.14.2從關(guān)聯(lián)分析到相關(guān)性分析425
11.14.3模式評(píng)估度量的比較426
11.15情感分析427
11.15.1情感分析的目的427
11.15.2情感分析要用到的知識(shí)427
11.15.3情感分析的輸入428
11.15.4情感分析的工作方式428
案例研究: 客戶群體的信用卡消費(fèi)可以通過(guò)商業(yè)需求進(jìn)行識(shí)別428
本章小結(jié)429
關(guān)鍵術(shù)語(yǔ)431
鞏固練習(xí)432
實(shí)戰(zhàn)練習(xí)434
單項(xiàng)選擇題參考答案436

第12章使用R實(shí)現(xiàn)并行計(jì)算\\\\437
12.1概述437
12.2R工具庫(kù)概述438
12.2.1在R中使用高性能計(jì)算的動(dòng)機(jī)438
12.3HPC中使用R的時(shí)機(jī)439
12.3.1單節(jié)點(diǎn)中的并行計(jì)算440
12.3.2多節(jié)點(diǎn)的并行化支持440
12.4R對(duì)并行化的支持443
12.4.1R中對(duì)單節(jié)點(diǎn)并行化執(zhí)行的支持443
12.4.2使用消息傳遞接口對(duì)多個(gè)節(jié)點(diǎn)上的并行執(zhí)行提供支持450
12.4.3使用其他分布式系統(tǒng)的包454
12.5R中并行包的比較461
案例研究: 銷售預(yù)測(cè)462
本章小節(jié)464
關(guān)鍵術(shù)語(yǔ)465
鞏固練習(xí)466
實(shí)戰(zhàn)練習(xí)468
單項(xiàng)選擇題參考答案471

本目錄推薦

掃描二維碼
Copyright ? 讀書網(wǎng) m.ranfinancial.com 2005-2020, All Rights Reserved.
鄂ICP備15019699號(hào) 鄂公網(wǎng)安備 42010302001612號(hào)