第 1 章 介紹和概述 . 1
1.1 主要的成功案例和應用 .1
1.1.1 Netflix 的 120 億美元營收目標 .1
1.1.2 在醫(yī)院急診部使用有限的信息拯救生命 .3
1.1.3 癌癥診斷與損傷預后 .5
1.1.4 從零開始使用低預算連續(xù)贏得 20 場比賽 .6
1.1.5 殼牌公司深海石油鉆探的預測性資產維護 .7
1.1.6 預測選舉結果 .8
1.1.7 星展銀行預測現(xiàn)金需求和優(yōu)化調度 .9
1.1.8 新加坡稅務局檢測稅務欺詐 .10
1.1.9 違規(guī)和欺詐貸款風險檢測 .11
1.2 適合 ADA 解決的問題特征 .12
1.3 數據分析、數據科學和人工智能的區(qū)別 .13
1.4 analysis 和 analytics .14
1.5 組織 ADA 能力的發(fā)展曲線 .15
1.6 規(guī)劃、開發(fā)和部署 ADA .18
1.7 四大預測模型 .19
第 2 章 基本概念和原則. 21
2.1 本章目標 .21
2.2 可視化和模型 .21
2.3 監(jiān)督學習和無監(jiān)督學習 .24
2.4 模型的可解釋性 .25
2.5 原則 1:正確模型不唯一 .26
2.5.1 模型和等式 .28
2.5.2 評估預測模型 .29
2.6 原則 2:訓練數據和測試數據分離 . 31
2.6.1 在訓練 - 測試拆分前進行分層 .33
2.6.2 有效地執(zhí)行分層和訓練 - 測試拆分 .34
2.6.3 訓練集與測試集之間的權衡 .39
2.7 原則 3:風險校正模型 . 39
2.7.1 多項式插值定理的影響 .40
2.7.2 模型復雜度 .41
第 3 章 數據探索和摘要. 47
3.1 本章目標 .47
3.2 數據初探和 R 語言的 data.table .47
3.2.1 data.table 的語法 .48
3.2.2 示例:2014 年的紐約航班 .48
3.2.3 行篩選 .51
3.2.4 列排序 .52
3.2.5 篩選幾列并進行重命名 .53
3.2.6 進一步的數據探索和問題 .53
3.3 公共用途微觀樣本數據 .59
3.3.1 探索 PUMS 中的健康保險覆蓋面數據 .60
3.3.2 在 R 中導入數據和摘要概述 .61
3.3.3 缺失值概述 .66
3.3.4 繪制單一連續(xù)變量的圖形摘要—概率密度 .67
3.3.5 繪制單一分類變量的圖形摘要—條形圖 .71
3.3.6 繪制分類變量X 和連續(xù)變量Y 的圖形摘要—箱線圖 .73
3.3.7 繪制連續(xù)變量X 和連續(xù)變量Y 的圖形摘要—散點圖 .75
3.3.8 繪制連續(xù)變量X 和分類變量X 的圖形摘要—抖動
散點圖 .76
3.4 結論 .79
第 4 章 數據結構和可視化 . 83
4.1 本章目標 .83
4.2 數據結構的格式 .83
4.3 檢查數據結構 .85
4.3.1 連續(xù)數據和分類數據 .85
4.3.2 定類數據與定序數據 .87
4.4 可視化 .90
4.5 結論 .93
第 5 章 數據清洗和準備. 95
5.1 本章目標 .95
5.2 缺失值 .95
5.2.1 更正不一致的缺失值記錄 .96
5.2.2 NA 和 NULL .98
5.2.3 處理(真實存在的)缺失值 .99
5.3 處理分類數據中的 NA 和錯誤值 .100
5.4 處理連續(xù)數據中的 NA 和錯誤值 .100
5.5 結論 .102
第 6 章 線性回歸:最佳實踐. 105
6.1 本章目標 .105
6.2 相關性 .105
6.2.1 強相關和因果關系 .108
6.2.2 強相關和直線關系 .109
6.2.3 弱相關性和無趨勢 .110
6.3 單輸入變量的線性回歸 .112
6.4 多重R 方和調整R 方 .115
6.5 線性回歸方程和線性回歸模型 .117
6.6 模型診斷圖 .118
6.7 有影響力的異常值 .119
6.8 向模型中增加一個二次項 .121
6.9 多因子的線性回歸 .123
6.10 訓練 - 測試拆分 .135
6.11 結論 .137
第 7 章 邏輯回歸:最佳實踐. 140
7.1 本章目標 .140
7.2 相對風險和勝算比 .140
7.3 單一連續(xù)輸入變量的二元邏輯回歸 .145
7.3.1 示例: 基于學習時長預測考試結果 .148
7.3.2 邏輯回歸的混淆矩陣 .152
7.4 多輸入變量的二元邏輯回歸 .154
7.5 多元邏輯回歸 .159
7.5.1 多分類值Y 的邏輯函數 .160
7.5.2 示例:影響服務評級的因素 .161
7.6 結論 .166
第 8 章 分類回歸樹 . 171
8.1 本章目標 .171
8.2 預測心臟病發(fā)作的模型和要求 .172
8.3 階段 1:使用二分法將樹增長到最大值 .175
8.3.1 度量分類變量結點的雜質 .176
8.3.2 CART 樹的增長過程 .179
8.4 階段 2:用最弱連接剪枝法將樹修剪到最小值 .180
8.4.1 最弱連接剪枝 .182
8.4.2 rpart 包中的α 和cp .185
8.4.3 k 折交叉驗證和 1 標準誤差規(guī)則 .185
8.5 示例:CART 模型在定向信用卡營銷中的運用
(Y 為分類數據) .187
8.6 示例:CART 模型在汽車燃油效率中的運用
(Y 為連續(xù)數據) .198
8.7 通過代理項自動處理缺失值 .205
8.8 結論 .211
8.9 rpart 包的重要函數和參數總結 .212
第 9 章 神經網絡. 219
9.1 本章目標 .219
9.2 大腦處理信息過程的建模 .220
9.3 信息的處理、關聯(lián)和傳輸 .221
9.4 示例:巧克力口味測試 .222
9.5 通過增加權重訓練神經網絡 .226
9.5.1 反向傳播 .226
9.5.2 彈性反向傳播和權重回溯 .228
9.6 設計神經網絡需要考慮的細節(jié) .229
9.6.1 規(guī)范所有輸入變量的取值范圍 .229
9.6.2 限制網絡復雜度 .230
9.6.3 neuralnet 和 nnet .230
9.7 示例:不孕風險 .231
9.8 結論 .236、
第 10 章 字符串和文本挖掘 . 240
10.1 本章目標 .240
10.2 處理字符串 .240
10.3 基本的文本挖掘概念 .247
10.3.1 示例:對期刊標題進行分析的字符串操作 .249
10.3.2 示例:對期刊標題分析的文本挖掘操作 .252
10.3.3 文檔要素矩陣 .256
10.3.4 非索引字 .257
10.4 情緒分析 .259
10.5 結論 .266
第 11 章 結束感想和后續(xù)計劃. 269
附錄 A R 和 RStudio 的安裝 . 271
A.1 下載安裝 R .271
A.2 下載安裝 RStudio .273
A.3 在 RStudio 中將 R 升級到最新版本 .274
附錄 B 基本的 R 命令和腳本 . 275
B.1 RStudio 界面的 4 個面板 .275
B.2 檢查和設置工作目錄 .280
B.3 將數據輸入 RStudio .281
B.4 R 中的對象命名約定 .284
B.5 R 中的通用運算符 .285
B.6 R 函數 .285
B.7 創(chuàng)建你自己的 R 函數 .287
B.8 練習 R .288