注冊(cè) | 登錄讀書好,好讀書,讀好書!
讀書網(wǎng)-DuShu.com
當(dāng)前位置: 首頁(yè)出版圖書人文社科社會(huì)科學(xué)統(tǒng)計(jì)學(xué)面向數(shù)據(jù)科學(xué)家的實(shí)用統(tǒng)計(jì)學(xué)

面向數(shù)據(jù)科學(xué)家的實(shí)用統(tǒng)計(jì)學(xué)

面向數(shù)據(jù)科學(xué)家的實(shí)用統(tǒng)計(jì)學(xué)

定 價(jià):¥89.00

作 者: 彼得·布魯斯(Peter Bruce),安德魯·布魯斯(Andrew Bruce) 著,蓋磊 譯
出版社: 人民郵電出版社
叢編項(xiàng): R語言
標(biāo) 簽: 暫缺

ISBN: 9787115493668 出版時(shí)間: 2018-10-01 包裝: 平裝
開本: 16開 頁(yè)數(shù): 220 字?jǐn)?shù):  

內(nèi)容簡(jiǎn)介

  本書解釋了數(shù)據(jù)科學(xué)中至關(guān)重要的統(tǒng)計(jì)學(xué)概念,介紹如何將各種統(tǒng)計(jì)方法應(yīng)用于數(shù)據(jù)科學(xué)。作者以易于理解、瀏覽和參考的方式,引出統(tǒng)計(jì)學(xué)中與數(shù)據(jù)科學(xué)相關(guān)的關(guān)鍵概念;解釋各統(tǒng)計(jì)學(xué)概念在數(shù)據(jù)科學(xué)中的重要性及有用程度,并給出原因。

作者簡(jiǎn)介

  彼得·布魯斯(Peter Bruce),知名統(tǒng)計(jì)學(xué)家,Statistics.com統(tǒng)計(jì)學(xué)教育學(xué)院的創(chuàng)立者兼院長(zhǎng),重采樣統(tǒng)計(jì)軟件的開發(fā)者。曾在美國(guó)馬里蘭大學(xué)和各種短訓(xùn)班教授重采樣統(tǒng)計(jì)課程。安德魯·布魯斯(Andrew Bruce),華盛頓大學(xué)統(tǒng)計(jì)學(xué)博士,擁有30多年的統(tǒng)計(jì)學(xué)和數(shù)據(jù)科學(xué)經(jīng)驗(yàn),在多家知名學(xué)術(shù)期刊上發(fā)表過多篇論文。

圖書目錄

前言   xiii
第 1 章 探索性數(shù)據(jù)分析 1
1.1 結(jié)構(gòu)化數(shù)據(jù)的組成 2
1.2 矩形數(shù)據(jù) 4
1.2.1 數(shù)據(jù)框和索引 5
1.2.2 非矩形數(shù)據(jù)結(jié)構(gòu) 5
1.2.3 拓展閱讀 6
1.3 位置估計(jì) 6
1.3.1 均值 7
1.3.2 中位數(shù)和穩(wěn)健估計(jì)量 8
1.3.3 位置估計(jì)的例子:人口和謀殺率 9
1.3.4 拓展閱讀 10
1.4 變異性估計(jì) 10
1.4.1 標(biāo)準(zhǔn)偏差及相關(guān)估計(jì)值 11
1.4.2 基于百分位數(shù)的估計(jì)量 13
1.4.3 例子:美國(guó)各州人口的變異性估計(jì)量 14
1.4.4 拓展閱讀 14
1.5 探索數(shù)據(jù)分布 14
1.5.1 百分位數(shù)和箱線圖 15
1.5.2 頻數(shù)表和直方圖 16
1.5.3 密度估計(jì) 18
1.5.4 拓展閱讀 20
1.6 探索二元數(shù)據(jù)和分類數(shù)據(jù) 20
1.6.1 眾數(shù) 21
1.6.2 期望值 22
1.6.3 拓展閱讀 22
1.7 相關(guān)性 22
1.7.1 散點(diǎn)圖 25
1.7.2 拓展閱讀 26
1.8 探索兩個(gè)及以上變量 26
1.8.1 六邊形圖和等勢(shì)線(適用于兩個(gè)數(shù)值型變量) 26
1.8.2 兩個(gè)分類變量 28
1.8.3 分類數(shù)據(jù)和數(shù)值型數(shù)據(jù) 29
1.8.4 多個(gè)變量的可視化 31
1.8.5 拓展閱讀 33
1.9 小結(jié) 33
第 2 章 數(shù)據(jù)和抽樣分布 34
2.1 隨機(jī)抽樣和樣本偏差 35
2.1.1 偏差 36
2.1.2 隨機(jī)選擇 37
2.1.3 數(shù)據(jù)規(guī)模與數(shù)據(jù)質(zhì)量:何時(shí)規(guī)模更重要 38
2.1.4 樣本均值與總體均值 38
2.1.5 拓展閱讀 39
2.2 選擇偏差 39
2.2.1 趨均值回歸 40
2.2.2 拓展閱讀 41
2.3 統(tǒng)計(jì)量的抽樣分布 42
2.3.1 中心極限定理 44
2.3.2 標(biāo)準(zhǔn)誤差 44
2.3.3 拓展閱讀 45
2.4 自助法 45
2.4.1 重抽樣與自助法 47
2.4.2 拓展閱讀 48
2.5 置信區(qū)間 48
2.6 正態(tài)分布 50
2.7 長(zhǎng)尾分布 53
2.8 學(xué)生t 分布 55
2.9 二項(xiàng)分布 57
2.10 泊松分布及其相關(guān)分布 58
2.10.1 泊松分布 59
2.10.2 指數(shù)分布 59
2.10.3 故障率估計(jì) 60
2.10.4 韋伯分布 60
2.10.5 拓展閱讀 61
2.11 小結(jié) 61
第3 章 統(tǒng)計(jì)實(shí)驗(yàn)與顯著性檢驗(yàn) 62
3.1 A/B 測(cè)試 62
3.1.1 為什么要有對(duì)照組 64
3.1.2 為什么只有處理A 和B,沒有C、D…… 65
3.1.3 拓展閱讀 66
3.2 假設(shè)檢驗(yàn) 66
3.2.1 零假設(shè) 67
3.2.2 備擇假設(shè) 67
3.2.3 單向假設(shè)檢驗(yàn)和雙向假設(shè)檢驗(yàn) 68
3.2.4 拓展閱讀 68
3.3 重抽樣 68
3.3.1 置換檢驗(yàn) 69
3.3.2 例子:Web 黏性 69
3.3.3 窮盡置換檢驗(yàn)和自助置換檢驗(yàn) 72
3.3.4 置換檢驗(yàn):數(shù)據(jù)科學(xué)的底線 72
3.3.5 拓展閱讀 72
3.4 統(tǒng)計(jì)顯著性和p 值 72
3.4.1 p 值 74
3.4.2 α 值 75
3.4.3 第 一類錯(cuò)誤和第二類錯(cuò)誤 76
3.4.4 數(shù)據(jù)科學(xué)與p 值 76
3.4.5 拓展閱讀 77
3.5 t 檢驗(yàn) 77
3.6 多重檢驗(yàn) 78
3.7 自由度 81
3.8 方差分析 82
3.8.1 F 統(tǒng)計(jì)量 84
3.8.2 雙向方差分析 85
3.8.3 拓展閱讀 86
3.9 卡方檢驗(yàn) 86
3.9.1 卡方檢驗(yàn):一種重抽樣方法 86
3.9.2 卡方檢驗(yàn):統(tǒng)計(jì)理論 88
3.9.3 費(fèi)舍爾精確檢驗(yàn) 88
3.9.4 與數(shù)據(jù)科學(xué)的關(guān)聯(lián) 90
3.9.5 拓展閱讀 91
3.10 多臂老虎機(jī)算法 91
3.11 檢驗(yàn)效能和樣本規(guī)?!?3
3.11.1 樣本規(guī)模 95
3.11.2 拓展閱讀 96
3.12 小結(jié) 96
第4 章 回歸與預(yù)測(cè) 97
4.1 簡(jiǎn)單線性回歸 97
4.1.1 回歸方程 98
4.1.2 擬合值與殘差 100
4.1.3 最小二乘法 101
4.1.4 預(yù)測(cè)與解釋(剖析) 102
4.1.5 拓展閱讀 103
4.2 多元線性回歸 103
4.2.1 美國(guó)金縣房屋數(shù)據(jù)案例 103
4.2.2 評(píng)估模型 104
4.2.3 交叉驗(yàn)證 106
4.2.4 模型選擇和逐步回歸法 107
4.2.5 加權(quán)回歸 108
4.3 使用回歸做預(yù)測(cè) 109
4.3.1 外推法的風(fēng)險(xiǎn) 109
4.3.2 置信區(qū)間和預(yù)測(cè)區(qū)間 110
4.4 回歸中的因子變量 111
4.4.1 虛擬變量的表示 112
4.4.2 多層因子變量 113
4.4.3 有序因子變量 114
4.5 解釋回歸方程 115
4.5.1 相關(guān)的預(yù)測(cè)變量 116
4.5.2 多重共線性 117
4.5.3 混淆變量 117
4.5.4 交互作用和主效應(yīng) 118
4.6 檢驗(yàn)假設(shè):回歸診斷 119
4.6.1 離群值 120
4.6.2 強(qiáng)影響值 121
4.6.3 異方差性、非正態(tài)分布和相關(guān)誤差 123
4.6.4 偏殘差圖和非線性 126
4.7 多項(xiàng)式回歸和樣條回歸 127
4.7.1 多項(xiàng)式回歸 128
4.7.2 樣條回歸 129
4.7.3 廣義加性模型 131
4.7.4 拓展閱讀 132
4.8 小結(jié) 133
第5 章 分類 134
5.1 樸素貝葉斯算法 135
5.1.1 準(zhǔn)確的貝葉斯分類是不切實(shí)際的 136
5.1.2 樸素解決方案 136
5.1.3 數(shù)值型預(yù)測(cè)變量 138
5.1.4 拓展閱讀 138
5.2 判別分析 138
5.2.1 協(xié)方差矩陣 139
5.2.2 費(fèi)希爾線性判別分析 139
5.2.3 一個(gè)簡(jiǎn)單的例子 140
5.2.4 拓展閱讀 142
5.3 邏輯回歸 142
5.3.1 邏輯響應(yīng)函數(shù)和Logit 函數(shù) 143
5.3.2 邏輯回歸和廣義線性模型 144
5.3.3 廣義線性模型 145
5.3.4 邏輯回歸的預(yù)測(cè)值 145
5.3.5 解釋系數(shù)和優(yōu)勢(shì)比 146
5.3.6 線性回歸與邏輯回歸:相似之處和不同之處 147
5.3.7 模型評(píng)估 148
5.3.8 拓展閱讀 150
5.4 評(píng)估分類模型 150
5.4.1 混淆矩陣 151
5.4.2 稀有類問題 152
5.4.3 準(zhǔn)確率、召回率和特異性 153
5.4.4 ROC 曲線 153
5.4.5 AUC 155
5.4.6 提升 156
5.4.7 拓展閱讀 157
5.5 不平衡數(shù)據(jù)的處理策略 157
5.5.1 欠采樣 158
5.5.2 過采樣以及上權(quán)重和下權(quán)重 158
5.5.3 數(shù)據(jù)生成 159
5.5.4 基于代價(jià)的分類 160
5.5.5 探索預(yù)測(cè)值 160
5.5.6 拓展閱讀 161
5.6 小結(jié) 161
第6 章 統(tǒng)計(jì)機(jī)器學(xué)習(xí) 162
6.1 K 最近鄰算法 163
6.1.1 預(yù)測(cè)貸款拖欠的示例 164
6.1.2 距離度量 165
6.1.3 獨(dú)熱編碼 166
6.1.4 標(biāo)準(zhǔn)化 166
6.1.5 K 值的選取 168
6.1.6 KNN 作為特征引擎 169
6.2 樹模型 170
6.2.1 一個(gè)簡(jiǎn)單的例子 171
6.2.2 遞歸分區(qū)算法 172
6.2.3 測(cè)量同質(zhì)性或不純度 174
6.2.4 阻止樹模型繼續(xù)生長(zhǎng) 175
6.2.5 預(yù)測(cè)連續(xù)值 176
6.2.6 如何使用樹模型 176
6.2.7 拓展閱讀 177
6.3 Bagging 和隨機(jī)森林 177
6.3.1 Bagging 方法 178
6.3.2 隨機(jī)森林 178
6.3.3 變量的重要性 181
6.3.4 超參數(shù) 183
6.4 Boosting 184
6.4.1 Boosting 算法 184
6.4.2 XGBoost 軟件 185
6.4.3 正則化:避免過擬合 186
6.4.4 超參數(shù)和交叉驗(yàn)證 189
6.5 小結(jié) 191
第7 章 無監(jiān)督學(xué)習(xí) 192
7.1 主成分分析 193
7.1.1 一個(gè)簡(jiǎn)單的例子 194
7.1.2 計(jì)算主成分 195
7.1.3 解釋主成分 196
7.1.4 拓展閱讀 198
7.2 K-Means 聚類 198
7.2.1 一個(gè)簡(jiǎn)單的例子 199
7.2.2 K-Means 算法 201
7.2.3 解釋類 201
7.2.4 選擇類的個(gè)數(shù) 203
7.3 層次聚類 204
7.3.1 一個(gè)簡(jiǎn)單的例子 205
7.3.2 樹狀圖 205
7.3.3 凝聚算法 206
7.3.4 測(cè)量相異性 207
7.4 基于模型的聚類 208
7.4.1 多元正態(tài)分布 209
7.4.2 混合正態(tài)分布 210
7.4.3 類數(shù)的選取 212
7.4.4 拓展閱讀 213
7.5 變量的縮放和分類變量 213
7.5.1 變量的縮放 214
7.5.2 控制變量 215
7.5.3 分類數(shù)據(jù)和高氏距離 216
7.5.4 混合數(shù)據(jù)的聚類問題 218
7.6 小結(jié) 219
作者簡(jiǎn)介 220
封面說明 220

本目錄推薦

掃描二維碼
Copyright ? 讀書網(wǎng) m.ranfinancial.com 2005-2020, All Rights Reserved.
鄂ICP備15019699號(hào) 鄂公網(wǎng)安備 42010302001612號(hào)