注冊(cè) | 登錄讀書好,好讀書,讀好書!
讀書網(wǎng)-DuShu.com
當(dāng)前位置: 首頁(yè)出版圖書科學(xué)技術(shù)計(jì)算機(jī)/網(wǎng)絡(luò)軟件與程序設(shè)計(jì)數(shù)據(jù)科學(xué)中的實(shí)用統(tǒng)計(jì)學(xué)(第2版)

數(shù)據(jù)科學(xué)中的實(shí)用統(tǒng)計(jì)學(xué)(第2版)

數(shù)據(jù)科學(xué)中的實(shí)用統(tǒng)計(jì)學(xué)(第2版)

定 價(jià):¥99.80

作 者: [美] 彼得·布魯斯,[美] 安德魯·布魯斯,[德] 彼得·格德克 著,陳光欣 譯
出版社: 人民郵電出版社
叢編項(xiàng):
標(biāo) 簽: 暫缺

ISBN: 9787115569028 出版時(shí)間: 2021-10-01 包裝: 平裝
開(kāi)本: 16開(kāi) 頁(yè)數(shù): 269 字?jǐn)?shù):  

內(nèi)容簡(jiǎn)介

  本書解釋了數(shù)據(jù)科學(xué)中至關(guān)重要的統(tǒng)計(jì)學(xué)概念,并介紹了如何將各種統(tǒng)計(jì)方法應(yīng)用于數(shù)據(jù)科學(xué)。作者以通俗易懂、分門別類的方式,闡釋了統(tǒng)計(jì)學(xué)中與數(shù)據(jù)科學(xué)相關(guān)的關(guān)鍵概念,并解釋了各統(tǒng)計(jì)學(xué)概念在數(shù)據(jù)科學(xué)中的重要性及有用程度。第 2 版在第 1 版的基礎(chǔ)上加入了更多以Python 和 R 編寫的示例,更清楚地闡釋了如何將統(tǒng)計(jì)方法用于數(shù)據(jù)科學(xué)。

作者簡(jiǎn)介

  彼得·布魯斯(Peter Bruce),Statistics.com統(tǒng)計(jì)學(xué)教育學(xué)院創(chuàng)辦人兼院長(zhǎng),重采樣統(tǒng)計(jì)軟件Resampling Stats的開(kāi)發(fā)者,美國(guó)統(tǒng)計(jì)協(xié)會(huì)職業(yè)發(fā)展咨詢委員會(huì)成員。安德魯·布魯斯(Andrew Bruce),亞馬遜數(shù)據(jù)科學(xué)家、華盛頓大學(xué)統(tǒng)計(jì)學(xué)博士,擁有30余年的統(tǒng)計(jì)學(xué)和數(shù)據(jù)科學(xué)經(jīng)驗(yàn)。彼得·格德克(Peter Gedeck),數(shù)據(jù)科學(xué)家,擁有30余年的科學(xué)計(jì)算和數(shù)據(jù)科學(xué)經(jīng)驗(yàn),善于開(kāi)發(fā)機(jī)器學(xué)習(xí)算法。

圖書目錄

目錄
第 1章 探索性數(shù)據(jù)分析 1
1.1 結(jié)構(gòu)化數(shù)據(jù)的要素 2
1.2 矩形數(shù)據(jù) 4
1.2.1 數(shù)據(jù)框和索引 5
1.2.2 非矩形數(shù)據(jù)結(jié)構(gòu) 6
1.2.3 擴(kuò)展閱讀 6
1.3 位置估計(jì) 6
1.3.1 均值 8
1.3.2 中位數(shù)和健壯的估計(jì) 9
1.3.3 示例:人口和謀殺率的位置估計(jì) 10
1.3.4 擴(kuò)展閱讀 11
1.4 變異性估計(jì) 11
1.4.1 標(biāo)準(zhǔn)差以及相關(guān)估計(jì) 13
1.4.2 基于百分位數(shù)的估計(jì) 14
1.4.3 示例:美國(guó)各州人口數(shù)量的變異性估計(jì) 15
1.4.4 擴(kuò)展閱讀 16
1.5 探索數(shù)據(jù)分布 16
1.5.1 百分位數(shù)與箱線圖 17
1.5.2 頻數(shù)表和直方圖 18
1.5.3 密度圖和密度估計(jì) 20
1.5.4 擴(kuò)展閱讀 22
1.6 探索二元數(shù)據(jù)和分類型數(shù)據(jù) 22
1.6.1 眾數(shù) 24
1.6.2 期望值 24
1.6.3 概率 25
1.6.4 擴(kuò)展閱讀 25
1.7 相關(guān)性 25
1.7.1 散點(diǎn)圖 28
1.7.2 擴(kuò)展閱讀 29
1.8 探索兩個(gè)及以上的變量 29
1.8.1 六邊形分箱圖和等高線圖(繪制數(shù)值型數(shù)據(jù)之間的關(guān)系) 30
1.8.2 兩個(gè)分類變量 32
1.8.3 分類型數(shù)據(jù)和數(shù)值型數(shù)據(jù) 33
1.8.4 多個(gè)變量的可視化 35
1.8.5 擴(kuò)展閱讀 37
1.9 小結(jié) 37
第 2 章 數(shù)據(jù)與抽樣分布 39
2.1 隨機(jī)抽樣和樣本偏差 40
2.1.1 偏差 42
2.1.2 隨機(jī)選擇 43
2.1.3 數(shù)量和質(zhì)量:什么時(shí)候數(shù)量更重要 44
2.1.4 樣本均值與總體均值 45
2.1.5 擴(kuò)展閱讀 45
2.2 選擇偏差 45
2.2.1 均值回歸 46
2.2.2 擴(kuò)展閱讀 48
2.3 統(tǒng)計(jì)量的抽樣分布 48
2.3.1 中心極限定理 51
2.3.2 標(biāo)準(zhǔn)誤差 51
2.3.3 擴(kuò)展閱讀 52
2.4 Bootstrap 方法 52
2.4.1 重抽樣與Bootstrap 方法 55
2.4.2 擴(kuò)展閱讀 55
2.5 置信區(qū)間 55
2.6 正態(tài)分布 57
2.7 長(zhǎng)尾分布 60
2.8 學(xué)生的t 分布 62
2.9 二項(xiàng)分布 64
2.10 卡方分布 67
2.11 F 分布 68
2.12 泊松及其相關(guān)分布 68
2.12.1 泊松分布 69
2.12.2 指數(shù)分布 69
2.12.3 估計(jì)故障率 70
2.12.4 韋布爾分布 70
2.12.5 擴(kuò)展閱讀 71
2.13 小結(jié) 71
第3 章 統(tǒng)計(jì)實(shí)驗(yàn)與顯著性檢驗(yàn) 72
3.1 A/B 測(cè)試 73
3.1.1 為什么要有對(duì)照組 75
3.1.2 為什么只有A/B,沒(méi)有C/D…… 76
3.1.3 擴(kuò)展閱讀 77
3.2 假設(shè)檢驗(yàn) 77
3.2.1 零假設(shè) 78
3.2.2 備擇假設(shè) 79
3.2.3 單向假設(shè)檢驗(yàn)與雙向假設(shè)檢驗(yàn) 79
3.2.4 擴(kuò)展閱讀 80
3.3 重抽樣 80
3.3.1 置換檢驗(yàn) 80
3.3.2 示例:Web 黏性 81
3.3.3 窮盡置換檢驗(yàn)和Bootstrap 置換檢驗(yàn) 84
3.3.4 置換檢驗(yàn):數(shù)據(jù)科學(xué)的底線 85
3.3.5 擴(kuò)展閱讀 85
3.4 統(tǒng)計(jì)顯著性和p 值 85
3.4.1 p 值 88
3.4.2 α 88
3.4.3 第 一類錯(cuò)誤和第二類錯(cuò)誤 90
3.4.4 數(shù)據(jù)科學(xué)與p 值 9
3.4.5 擴(kuò)展閱讀 90
3.5 t 檢驗(yàn) 91
3.6 多重檢驗(yàn) 92
3.7 自由度 95
3.8 ANOVA 97
3.8.1 F 統(tǒng)計(jì)量 99
3.8.2 雙向ANOVA 101
3.8.3 擴(kuò)展閱讀 101
3.9 卡方檢驗(yàn) 101
3.9.1 卡方檢驗(yàn):一種重抽樣方法 102
3.9.2 卡方檢驗(yàn):統(tǒng)計(jì)理論 104
3.9.3 費(fèi)希爾精確檢驗(yàn) 105
3.9.4 與數(shù)據(jù)科學(xué)的關(guān)聯(lián) 107
3.9.5 擴(kuò)展閱讀 107
3.10 多臂老虎機(jī)算法 107
3.11 檢驗(yàn)力與樣本容量 110
3.11.1 樣本容量 111
3.11.2 擴(kuò)展閱讀 113
3.12 小結(jié) 114
第4 章 回歸與預(yù)測(cè) 115
4.1 簡(jiǎn)單線性回歸 115
4.1.1 回歸方程 117
4.1.2 擬合值與殘差 119
4.1.3 最小二乘法 120
4.1.4 預(yù)測(cè)與解釋(分析) 121
4.1.5 擴(kuò)展閱讀 121
4.2 多元線性回歸 122
4.2.1 示例:金縣房屋數(shù)據(jù) 123
4.2.2 模型評(píng)估 124
4.2.3 交叉驗(yàn)證 126
4.2.4 模型選擇與逐步回歸 127
4.2.5 加權(quán)回歸 130
4.2.6 擴(kuò)展閱讀 131
4.3 使用回歸進(jìn)行預(yù)測(cè) 131
4.3.1 外推風(fēng)險(xiǎn) 131
4.3.2 置信區(qū)間與預(yù)測(cè)區(qū)間 132
4.4 回歸中的因子變量 133
4.4.1 虛擬變量的表示方法 134
4.4.2 多水平因子變量 136
4.4.3 有序因子變量 138
4.5 解釋回歸方程 138
4.5.1 相關(guān)的預(yù)測(cè)變量 139
4.5.2 多重共線性 140
4.5.3 混淆變量 141
4.5.4 交互作用與主效應(yīng) 142
4.6 回歸診斷 143
4.6.1 離群點(diǎn) 144
4.6.2 強(qiáng)影響值 146
4.6.3 異方差、非正態(tài)與相關(guān)誤差 148
4.6.4 偏殘差圖與非線性 151
4.7 多項(xiàng)式回歸與樣條回歸 152
4.7.1 多項(xiàng)式回歸 153
4.7.2 樣條回歸 155
4.7.3 廣義可加模型 156
4.7.4 擴(kuò)展閱讀 158
4.8 小結(jié) 158
第5 章 分類 159
5.1 樸素貝葉斯算法 160
5.1.1 為什么進(jìn)行精確貝葉斯分類是不現(xiàn)實(shí)的 161
5.1.2 樸素貝葉斯問(wèn)題求解 161
5.1.3 數(shù)值型預(yù)測(cè)變量 164
5.1.4 擴(kuò)展閱讀 164
5.2 判別分析 164
5.2.1 協(xié)方差矩陣 165
5.2.2 費(fèi)希爾線性判別分析 166
5.2.3 一個(gè)簡(jiǎn)單的例子 166
5.2.4 擴(kuò)展閱讀 169
5.3 邏輯回歸 169
5.3.1 邏輯響應(yīng)函數(shù)和logit 函數(shù) 170
5.3.2 邏輯回歸和廣義線性模型 171
5.3.3 廣義線性模型 172
5.3.4 邏輯回歸的預(yù)測(cè)值 173
5.3.5 系數(shù)和優(yōu)勢(shì)比的解釋 174
5.3.6 線性回歸與邏輯回歸:共性與差異 175
5.3.7 評(píng)估模型 176
5.3.8 擴(kuò)展閱讀 179
5.4 分類模型評(píng)估 179
5.4.1 混淆矩陣 180
5.4.2 稀有類問(wèn)題 182
5.4.3 精確度、召回率和特異度 182
5.4.4 ROC 曲線 183
5.4.5 AUC 185
5.4.6 提升度 186
5.4.7 擴(kuò)展閱讀 187
5.5 非平衡數(shù)據(jù)的處理策略 187
5.5.1 欠采樣 188
5.5.2 過(guò)采樣與上(下)加權(quán) 189
5.5.3 數(shù)據(jù)生成 190
5.5.4 基于成本的分類 191
5.5.5 探索預(yù)測(cè)結(jié)果 191
5.5.6 擴(kuò)展閱讀 192
5.6 小結(jié) 193
第6 章 統(tǒng)計(jì)機(jī)器學(xué)習(xí) 194
6.1 KNN 195
6.1.1 一個(gè)小例子:預(yù)測(cè)貸款違約 196
6.1.2 距離的度量 198
6.1.3 獨(dú)熱編碼 198
6.1.4 標(biāo)準(zhǔn)化(歸一化,z 分?jǐn)?shù)) 199
6.1.5 K 的選擇 201
6.1.6 KNN 作為特征引擎 202
6.2 樹模型 204
6.2.1 一個(gè)簡(jiǎn)單的例子 205
6.2.2 遞歸分割算法 207
6.2.3 測(cè)量同質(zhì)性或不純度 208
6.2.4 讓樹停止生長(zhǎng) 209
6.2.5 預(yù)測(cè)連續(xù)的值 211
6.2.6 如何使用樹 211
6.2.7 擴(kuò)展閱讀 212
6.3 裝袋法與隨機(jī)森林 212
6.3.1 裝袋法 213
6.3.2 隨機(jī)森林 213
6.3.3 變量的重要性 217
6.3.4 超參數(shù) 220
6.4 提升方法 221
6.4.1 提升算法 222
6.4.2 XGBoost 222
6.4.3 正則化:避免過(guò)擬合 225
6.4.4 超參數(shù)與交叉驗(yàn)證 228
6.5 小結(jié) 231
第7 章 無(wú)監(jiān)督學(xué)習(xí) 232
7.1 主成分分析 233
7.1.1 一個(gè)簡(jiǎn)單的例子 234
7.1.2 計(jì)算主成分 236
7.1.3 解釋主成分 236
7.1.4 對(duì)應(yīng)分析 239
7.1.5 擴(kuò)展閱讀 240
7.2 K-均值聚類 241
7.2.1 一個(gè)簡(jiǎn)單的例子 241
7.2.2 K-均值算法 244
7.2.3 簇的解釋 245
7.2.4 選擇簇的數(shù)量 247
7.3 層次聚類 248
7.3.1 一個(gè)簡(jiǎn)單的例子 249
7.3.2 樹狀圖 250
7.3.3 凝聚算法 251
7.3.4 測(cè)量相異度 252
7.4 基于模型的聚類 253
7.4.1 多元正態(tài)分布 253
7.4.2 混合正態(tài)分布 254
7.4.3 選擇簇的數(shù)量 257
7.4.4 擴(kuò)展閱讀 259
7.5 數(shù)據(jù)縮放與分類變量 259
7.5.1 縮放變量 260
7.5.2 主導(dǎo)變量 261
7.5.3 分類數(shù)據(jù)和Gower 距離 263
7.5.4 混合數(shù)據(jù)聚類中的問(wèn)題 265
7.6 小結(jié) 266
擴(kuò)展閱讀 267
作者介紹 269
封面介紹 269

本目錄推薦

掃描二維碼
Copyright ? 讀書網(wǎng) m.ranfinancial.com 2005-2020, All Rights Reserved.
鄂ICP備15019699號(hào) 鄂公網(wǎng)安備 42010302001612號(hào)