注冊 | 登錄讀書好,好讀書,讀好書!
讀書網(wǎng)-DuShu.com
當前位置: 首頁出版圖書科學技術(shù)計算機/網(wǎng)絡(luò)數(shù)據(jù)庫探尋數(shù)據(jù)背后的邏輯:R語言數(shù)據(jù)挖掘之道

探尋數(shù)據(jù)背后的邏輯:R語言數(shù)據(jù)挖掘之道

探尋數(shù)據(jù)背后的邏輯:R語言數(shù)據(jù)挖掘之道

定 價:¥89.00

作 者: 宋云生 著
出版社: 電子工業(yè)出版社
叢編項:
標 簽: 暫缺

ISBN: 9787121338618 出版時間: 2018-07-01 包裝: 平裝
開本: 16開 頁數(shù): 432 字數(shù):  

內(nèi)容簡介

  數(shù)據(jù)分析、數(shù)據(jù)挖掘的本質(zhì)是探尋數(shù)據(jù)背后的邏輯,挖掘人們的欲望、需求、態(tài)度等。本書不僅僅教會讀者如何掌握數(shù)據(jù)挖掘相關(guān)技能,更教會讀者如何從數(shù)據(jù)挖掘結(jié)果中分析出更深層次的邏輯。本書主要介紹使用R語言進行數(shù)據(jù)挖掘的過程。具體內(nèi)容包括R軟件的安裝及R語言基礎(chǔ)知識、數(shù)據(jù)探索、數(shù)據(jù)可視化、回歸預(yù)測分析、時間序列分析、算法選擇流程及十大算法介紹、數(shù)據(jù)抓取、社交網(wǎng)絡(luò)關(guān)系分析、情感分析、話題模型、推薦系統(tǒng),以及數(shù)據(jù)挖掘在生物信息學中的應(yīng)用。另外,本書還介紹了R腳本優(yōu)化相關(guān)內(nèi)容,使讀者的數(shù)據(jù)挖掘技能更上一層樓。本書適合從事數(shù)據(jù)挖掘、數(shù)據(jù)分析、市場研究的工作者及學生群體,以及對數(shù)據(jù)挖掘和數(shù)據(jù)分析感興趣的初級讀者。

作者簡介

  宋云生,2010年中山大學本科畢業(yè)后保送就讀本校植物學專業(yè)碩士研究生,并在2012年繼續(xù)攻讀博士研究生。2015年7月至今在中山大學從事博士后研究,主要從事紅樹物種的基因組學及群體遺傳學的研究,在數(shù)據(jù)挖掘方面經(jīng)驗豐富。

圖書目錄

第1章 萬事不只開頭難 1
1.1 工欲善其事,必先利其器:安裝 1
1.1.1 安裝R和RStudio 1
1.1.2 安裝數(shù)據(jù)包 3
1.1.3 數(shù)據(jù)包加載、卸載、升級,查看幫助文檔 5
1.1.4 什么樣的R包值得相信 7
1.2 了解R的對象 8
1.2.1 如何進行常見的算術(shù)運算 8
1.2.2 R語言的三大數(shù)據(jù)類型 10
1.2.3 向量及其運算 12
1.2.4 因子變量鮮有人知的秘密 15
1.2.5 矩陣相關(guān)運算及神奇的特征值 17
1.2.6 數(shù)據(jù)框及其篩選、替換、添加、排序、去重 18
1.2.7 與數(shù)組(array)相比,表單(list)的用處更加廣泛 22
1.2.8 如何進行數(shù)據(jù)結(jié)構(gòu)之間的轉(zhuǎn)化 23
1.3 R語言的重器:函數(shù) 26
1.3.1 自編函數(shù) 26
1.3.2 有用的R字符串函數(shù) 29
1.4 控制流在R語言里只是一種輔助工具 31
1.4.1 判斷 32
1.4.2 循環(huán) 33
1.5 數(shù)據(jù)的讀入與輸出 35
1.5.1 常見數(shù)據(jù)格式的輸入/輸出(CSV、TXT、RDATA、XLSX) 35
1.5.2 數(shù)據(jù)庫連接:Oracle、MySQL及Hive 37
1.5.3 亂碼就像馬賽克一樣讓人討厭 39
第2章 數(shù)據(jù)探索,招招都是利器 41
2.1 不要在工作后才認識“臟數(shù)據(jù)” 41
2.1.1 以老板信服的方式處理缺失數(shù)據(jù) 42
2.1.2 異常值預(yù)警 48
2.1.3 字符處理正則表達式不再是天書 49
2.2 數(shù)據(jù)透視、數(shù)據(jù)整形、關(guān)聯(lián)融合與批量處理 50
2.2.1 還忘不掉Excel的數(shù)據(jù)透視表嗎 50
2.2.2 你能給數(shù)據(jù)做整形手術(shù)嗎:long型和wide型 52
2.2.3 關(guān)聯(lián)合并表 54
2.2.4 數(shù)據(jù)批處理:R語言里最重要的一個函數(shù)家族:*pply 55
2.3 一招完成數(shù)據(jù)探索報告 58
2.4 拯救你的很多時候是基礎(chǔ)理論 61
2.4.1 參數(shù)檢驗及非參檢驗 62
2.4.2 學了很多算法卻忘了方差分析 68
2.4.3 多因素方差分析及協(xié)方差作用 70
2.4.4 很多熟悉的數(shù)據(jù)處理方法已經(jīng)成笑話,工具箱該換了 73
第3章 從商務(wù)氣質(zhì)的數(shù)據(jù)可視化說起 84
3.1 說說數(shù)據(jù)可視化的專業(yè)素養(yǎng) 84
3.1.1 數(shù)據(jù)可視化歷史上有多少背影等你仰望 84
3.1.2 商務(wù)圖表應(yīng)該具有哪些素質(zhì) 87
3.1.3 那些你不知道的圖表誤導性伎倆 94
3.1.4 如何快速解構(gòu)著名雜志的圖表 98
3.2 ggplot2包:一個價值8萬美元的態(tài)度 103
3.2.1 一張圖學會ggplot2包的繪圖原理 105
3.2.2 基礎(chǔ)繪圖科學:ggplot2包的主題函數(shù)繼承關(guān)系圖(關(guān)系網(wǎng)絡(luò)圖) 127
3.2.3 基礎(chǔ)圖表一網(wǎng)打盡 132
3.2.4 古老的地圖煥發(fā)新顏 151
3.3 將靜態(tài)圖轉(zhuǎn)為D3交互圖表:plotly 156
3.4 從基礎(chǔ)到進階的變形圖表 157
3.4.1 馬賽克圖(分類變量描述性分析) 157
3.4.2 Sankey圖和chordDiagram圖 158
第4章 分位數(shù)回歸模擬股票指數(shù)風險通道 163
4.1 用線性回歸預(yù)測醫(yī)院的藥品銷售額 163
4.2 多項式回歸及常見回歸方程的書寫 168
4.3 Lasso回歸和回歸評價的常見指標 170
4.4 分位數(shù)回歸擬合上證指數(shù)風險通道 175
第5章 時間序列分析 181
5.1 時間序列分析:分析帶有時間屬性的數(shù)列 181
5.2 不是所有序列都叫時間序列 181
5.3 時間序列三件寶:趨勢、周期、隨機波動 183
5.3.1 趨勢 183
5.3.2 周期 184
5.3.3 隨機波動 186
5.4 預(yù)測分析 186
5.4.1 指數(shù)平滑法 186
5.4.2 ARIMA模型預(yù)測 188
第6章 選擇什么算法也有一套流程 192
6.1 重新審視一下這幾個模型 192
6.1.1 Logistic回歸 192
6.1.2 我要的不是一棵樹,而是整座森林:隨機森林 195
6.1.3 神奇的神經(jīng)網(wǎng)絡(luò) 196
6.2 銀行信用卡評估模型之變量篩選 197
6.2.1 變量構(gòu)建 197
6.2.2 Logistic回歸變量篩選 198
6.2.3 隨機森林變量篩選 203
6.2.4 人工神經(jīng)網(wǎng)絡(luò)建模 204
6.3 必須面對的模型評估 204
第7章 深入淺出十大算法 208
7.1 C5.0算法 208
7.1.1 一個重要的概念:信息熵 208
7.1.2 非列變量選擇的實例 209
7.1.3 C5.0算法的R實現(xiàn) 210
7.2 K-means算法 212
7.2.1 K-means算法的R實現(xiàn) 212
7.2.2 怎么確定聚類數(shù) 213
7.3 支持向量機(SVM)算法 213
7.3.1 通俗理解SVM 214
7.3.2 SVM的R實現(xiàn) 216
7.4 Apriori算法 216
7.4.1 舉例說明Apriori 217
7.4.2 Apriori算法的R實現(xiàn) 219
7.5 EM算法 220
7.5.1 舉例說明EM算法 221
7.5.2 EM算法的R實現(xiàn) 222
7.6 PageRank算法 223
7.7 AdaBoost算法 224
7.8 KNN算法與K-means算法有什么不同 226
7.9 Naive Bayes(樸素貝葉斯)算法 227
7.10 CART算法 228
第8章 數(shù)據(jù)抓取 231
8.1 數(shù)據(jù)挖掘工程師不可抱怨“巧婦難為無米之炊” 231
8.2 抓取股市龍虎榜數(shù)據(jù),碰碰運氣 232
8.2.1 了解XML和Html樹狀結(jié)構(gòu),才能庖丁解牛 233
8.2.2 了解RCurl包和網(wǎng)頁解析函數(shù) 234
8.2.3 抓取股票龍虎榜 235
8.2.4 資金流入分析 237
8.3 抓取某家醫(yī)藥信息網(wǎng)站全站藥品銷售數(shù)據(jù) 240
8.3.1 所有醫(yī)藥公司名稱一網(wǎng)打盡 240
8.3.2 為什么抓取數(shù)據(jù)時可以使用For循環(huán) 242
8.3.3 不要把代碼寫復(fù)雜 244
8.3.4 用Sankey數(shù)據(jù)流描繪醫(yī)藥市場份額流動 248
第9章 不可不說的社交網(wǎng)絡(luò)關(guān)系 254
9.1 社交網(wǎng)絡(luò)圖 254
9.1.1 社交網(wǎng)絡(luò)圖告訴你和誰交朋友 254
9.1.2 這幾個基本概念你需要抓牢 256
9.1.3 還有比本章任務(wù)更有趣的數(shù)據(jù)挖掘嗎 259
9.2 你還要裝備幾個評價指標 260
9.2.1 社交網(wǎng)絡(luò)大小 260
9.2.2 社交網(wǎng)絡(luò)關(guān)系的完備性 261
9.2.3 節(jié)點實力評價 262
9.3 全球某貨物貿(mào)易中的親密關(guān)系 263
9.3.1 全球某貨物貿(mào)易數(shù)據(jù)整合清洗 263
9.3.2 分組和社交網(wǎng)絡(luò)中心 267
9.3.3 全球某貨物交易圈:尋找各自的小伙伴 270
9.4 中國電影演藝圈到底有沒有“圈” 276
9.4.1 數(shù)據(jù)清洗與整形 276
9.4.2 看看演藝圈長什么樣 279
9.4.3 誰才是演藝圈的“關(guān)系戶” 281
9.4.4 用Apriori算法查查演藝圈合作的“朋友”關(guān)系 283
9.4.5 給范冰冰推薦合作伙伴 284
第10章 情感分析:一種準確率高達90%的新方法? 287
10.1 情感分析及其應(yīng)用:這是老生常談 287
10.1.1 情感分析的用途 287
10.1.2 情感分析的方法論 288
10.1.3 有關(guān)情感分析的一些知識和方向 289
10.2 文本分析的基本武器:R 290
10.2.1 RJava包配置 290
10.2.2 Rwordseg包安裝 291
10.2.3 jieba分詞包安裝 291
10.3 基于詞典的情感分析的效果好過瞎猜嗎 292
10.3.1 數(shù)據(jù)整理及詞典構(gòu)建 292
10.3.2 分詞整理 297
10.3.3 情感指數(shù)計算 299
10.3.4 方法評價:優(yōu)、缺點分析 300
10.4 監(jiān)督式情感分析:挑選訓練數(shù)據(jù)集是所有人心中的痛 301
10.4.1 TFIDF指標 301
10.4.2 構(gòu)建語料庫 302
10.4.3 隨機森林模型 304
10.4.4 算法評估:隨機森林應(yīng)該建多少棵樹 308
10.5 一種準確率高達90%的新方法 316
10.5.1 拿來主義的啟示 316
10.5.2 情感詞典和規(guī)則構(gòu)建 317
10.5.3 樸素貝葉斯情感分析器 329
10.5.4 支持向量機(SVM)、決策樹等情感分析器 330
10.5.5 如何選擇支持SVM的核函數(shù) 339
10.5.6 情感分類器方法評價 343
10.6 談?wù)勄楦蟹治龅南乱徊剿伎?344
第11章 話題模型:很多牛人過不去的坎兒 346
11.1 話題模型與文案文本集 346
11.1.1 任務(wù)仍然是以處理dirty data 開始 347
11.1.2 數(shù)據(jù)清洗 348
11.2 話題模型中幾個重要的數(shù)據(jù)處理步驟 350
11.2.1 中文分詞 350
11.2.2 數(shù)據(jù)整型 352
11.2.3 怎樣設(shè)定“閾值” 353
11.3 上帝有多少個色子:話題數(shù)量估計 356
11.3.1 通俗地說一遍話題模型 356
11.3.2 主題數(shù)估計與交叉檢驗 357
11.3.3 如何使用復(fù)雜度、對數(shù)似然值確定主題數(shù) 362
11.4 LDA話題模型竟然能輸出這么多關(guān)系 368
11.4.1 輸出主題――詞匯及其概率矩陣 368
11.4.2 輸出主題――文檔歸屬及其概率矩陣 369
11.5 話題之間也有社交(衍生)關(guān)系嗎 370
11.6 話題模型的幾個強大衍生品 372
11.6.1 話題模型提取特征詞 372
11.6.2 三種方法確定聚類的類數(shù)和文本層次聚類 373
11.6.3 漂亮的文本聚類樹和批量繪制大類詞云圖 375
第12章 排名就是簡單的推薦系統(tǒng)嗎? 378
12.1 全球宜居城市綜合實力排行 378
12.1.1 綜合實力排行:專家法VS數(shù)據(jù)驅(qū)動法 379
12.1.2 怎么比較兩個排名結(jié)果 382
12.2 協(xié)同過濾推薦系統(tǒng) 383
12.2.1 基于商品的協(xié)同過濾系統(tǒng)(ItemCF) 386
12.2.2 基于用戶的系統(tǒng)過濾系統(tǒng)(UserCF) 388
12.2.3 推薦系統(tǒng)效果評比 390
第13章 生物信息學中的數(shù)據(jù)挖掘案例 392
13.1 生物信息學與R語言 392
13.2 生物信息學中常用的軟件包 392
13.2.1 軟件包簡介 392
13.2.2 數(shù)據(jù)表示方式――對象類(class) 393
13.2.3 生物信息學R包簡介:Bioconductor和CRAN 393
13.2.4 ape包 394
13.2.5 讀懂你的對象 404
13.2.6 修改工具包中的函數(shù)以適應(yīng)新情況 407
第14章 產(chǎn)品化:關(guān)于內(nèi)存、速度和自動化 411
14.1 不同終端調(diào)用、自動化執(zhí)行R腳本及參數(shù)傳遞 411
14.2 與速度、內(nèi)存、并行相關(guān)的程序優(yōu)化 414

本目錄推薦

掃描二維碼
Copyright ? 讀書網(wǎng) m.ranfinancial.com 2005-2020, All Rights Reserved.
鄂ICP備15019699號 鄂公網(wǎng)安備 42010302001612號