利用Python調(diào)試機器學(xué)習(xí)模型

定　價：￥119.00

作　者：	[美]阿里·馬達(dá)尼著李慶良譯
出版社：	清華大學(xué)出版社
叢編項：
標(biāo)　簽：	暫缺

購買這本書可以去

當(dāng)當(dāng)網(wǎng) (￥113.10)

ISBN：	9787302668565	出版時間：	2024-08-01	包裝：	平裝-膠訂
開本：	16開	頁數(shù)：		字?jǐn)?shù)：

內(nèi)容簡介

　　《利用Python調(diào)試機器學(xué)習(xí)模型》詳細(xì)闡述了利用Python調(diào)試機器學(xué)習(xí)模型的基本解決方案，主要包括超越代碼調(diào)試、機器學(xué)習(xí)生命周期、為實現(xiàn)負(fù)責(zé)任的人工智能而進(jìn)行調(diào)試、檢測機器學(xué)習(xí)模型中的性能和效率問題、提高機器學(xué)習(xí)模型的性能、機器學(xué)習(xí)建模中的可解釋性和可理解性、減少偏差并實現(xiàn)公平性、使用測試驅(qū)動開發(fā)以控制風(fēng)險、生產(chǎn)測試和調(diào)試、版本控制和可再現(xiàn)的機器學(xué)習(xí)建模、避免數(shù)據(jù)漂移和概念漂移、通過深度學(xué)習(xí)超越機器學(xué)習(xí)調(diào)試、高級深度學(xué)習(xí)技術(shù)、機器學(xué)習(xí)最新進(jìn)展簡介、相關(guān)性與因果關(guān)系、機器學(xué)習(xí)中的安全性和隱私、人機回圈機器學(xué)習(xí)等內(nèi)容。此外，本書還提供了相應(yīng)的示例、代碼，以幫助讀者進(jìn)一步理解相關(guān)方案的實現(xiàn)過程。本書可作為高等院校計算機及相關(guān)專業(yè)的教材和教學(xué)參考用書，也可作為相關(guān)開發(fā)人員的自學(xué)用書和參考手冊。

作者簡介

　　Ali Madani曾任Cyclica公司的機器學(xué)監(jiān)，該公司處于藥物發(fā)現(xiàn)的人工智能技術(shù)開發(fā)前沿，之后被Recursion Pharmaceuticals收購。Ali在新公司繼續(xù)專注于機器學(xué)習(xí)在藥物發(fā)現(xiàn)中的應(yīng)用。Ali在多倫多大學(xué)獲得博士學(xué)位，專業(yè)方向是癌癥研究任務(wù)中的機器學(xué)習(xí)建模。Ali還在加拿大滑鐵盧大學(xué)獲得數(shù)學(xué)碩士學(xué)位。

圖書目錄

第1篇機器學(xué)習(xí)建模的調(diào)試
第1章超越代碼調(diào)試 3
1.1 技術(shù)要求 3
1.2 機器學(xué)習(xí)概覽 4
1.3 機器學(xué)習(xí)建模的類型 5
1.3.1 監(jiān)督學(xué)習(xí) 6
1.3.2 無監(jiān)督學(xué)習(xí) 6
1.3.3 自監(jiān)督學(xué)習(xí) 7
1.3.4 半監(jiān)督學(xué)習(xí) 7
1.3.5 強化學(xué)習(xí) 7
1.3.6 生成式機器學(xué)習(xí) 7
1.4 軟件開發(fā)中的調(diào)試 8
1.4.1 Python中的錯誤消息 9
1.4.2 調(diào)試技巧 11
1.4.3 調(diào)試器 13
1.4.4 高質(zhì)量Python編程的最佳實踐 14
1.4.5 版本控制 16
1.4.6 Python之外的調(diào)試 17
1.5 用于建模的數(shù)據(jù)中的缺陷 18
1.5.1 數(shù)據(jù)格式和結(jié)構(gòu) 18
1.5.2 數(shù)據(jù)數(shù)量和質(zhì)量 19
1.5.3 數(shù)據(jù)偏差 19
1.6 以模型和預(yù)測為中心的調(diào)試 20
1.6.1 欠擬合和過擬合 20
1.6.2 模型測試和生產(chǎn)環(huán)境中的推理 21
1.6.3 用于改變?nèi)驳臄?shù)據(jù)或超參數(shù) 21
1.7 小結(jié) 22
1.8 思考題 22
1.9 參考文獻(xiàn) 22
第2章機器學(xué)習(xí)生命周期 25
2.1 技術(shù)要求 25
2.2 在開始建模之前需要了解的事項 26
2.3 數(shù)據(jù)收集 27
2.4 數(shù)據(jù)選擇 28
2.5 數(shù)據(jù)探索 28
2.6 數(shù)據(jù)整理 29
2.6.1 結(jié)構(gòu)化 29
2.6.2 充實和豐富 29
2.6.3 數(shù)據(jù)轉(zhuǎn)換 30
2.6.4 數(shù)據(jù)清洗 33
2.7 建模數(shù)據(jù)準(zhǔn)備 38
2.7.1 特征選擇和提取 38
2.7.2 設(shè)計評估和測試策略 40
2.8 模型訓(xùn)練與評估 42
2.9 測試代碼和模型 44
2.10 模型部署與監(jiān)控 45
2.11 小結(jié) 45
2.12 思考題 46
2.13 參考文獻(xiàn) 46
第3章為實現(xiàn)負(fù)責(zé)任的人工智能而進(jìn)行調(diào)試 47
3.1 技術(shù)要求 47
3.2 機器學(xué)習(xí)中的公正建模公平性 47
3.2.1 數(shù)據(jù)偏差 48
3.2.2 算法偏差 50
3.3 機器學(xué)習(xí)中的安全和隱私 50
3.3.1 數(shù)據(jù)隱私 50
3.3.2 數(shù)據(jù)隱私攻擊 51
3.3.3 數(shù)據(jù)中毒 51
3.3.4 對抗性攻擊 51
3.3.5 輸出完整性攻擊 52
3.3.6 系統(tǒng)操縱 53
3.3.7 安全且具備隱私保護(hù)功能的機器學(xué)習(xí)技術(shù) 53
3.4 機器學(xué)習(xí)建模的透明度 54
3.5 負(fù)責(zé)并接受建模檢查 55
3.6 數(shù)據(jù)和模型治理 57
3.7 小結(jié) 58
3.8 思考題 59
3.9 參考文獻(xiàn) 59
第2篇改進(jìn)機器學(xué)習(xí)模型
第4章檢測機器學(xué)習(xí)模型中的性能和效率問題 63
4.1 技術(shù)要求 63
4.2 性能和誤差評估措施 64
4.2.1 分類 64
4.2.2 回歸 70
4.2.3 聚類 73
4.3 性能評估可視化 74
4.3.1 僅有匯總統(tǒng)計指標(biāo)還不夠 75
4.3.2 可視化可能會產(chǎn)生誤導(dǎo) 75
4.3.3 不要一廂情愿地解釋繪圖 76
4.4 偏差和方差診斷 77
4.5 模型驗證策略 80
4.6 誤差分析 83
4.7 超越性能 84
4.8 小結(jié) 86
4.9 思考題 86
4.10 參考文獻(xiàn) 87
第5章提高機器學(xué)習(xí)模型的性能 89
5.1 技術(shù)要求 89
5.2 提高模型性能的選項 90
5.2.1 網(wǎng)格搜索 92
5.2.2 隨機搜索 93
5.2.3 貝葉斯搜索 94
5.2.4 連續(xù)減半 95
5.3 合成數(shù)據(jù)的生成 95
5.3.1 不平衡數(shù)據(jù)的過采樣 96
5.3.2 SMOTE技術(shù)原理 96
5.3.3 編寫繪圖函數(shù) 97
5.3.4 生成合成數(shù)據(jù)集 98
5.3.5 使用SMOTE方法 99
5.3.6 使用Borderline-SMOTE方法 100
5.3.7 使用ADASYN方法 101
5.3.8 其他基于SMOTE的方法 102
5.4 改進(jìn)預(yù)訓(xùn)練數(shù)據(jù)處理 103
5.4.1 異常檢測和離群值去除 104
5.4.2 善加利用低質(zhì)量或相關(guān)性較低的數(shù)據(jù) 107
5.5 通過正則化方法提高模型的泛化能力 109
5.5.1 正則化方法的原理 109
5.5.2 編寫繪圖函數(shù) 111
5.5.3 評估Lasso模型 112
5.5.4 評估嶺模型 113
5.5.5 評估Elastic-Net 113
5.5.6 評估SVM分類模型 114
5.6 小結(jié) 115
5.7 思考題 115
5.8 參考文獻(xiàn) 115
第6章機器學(xué)習(xí)建模中的可解釋性和可理解性 119
6.1 技術(shù)要求 119
6.2 可理解性機器學(xué)習(xí)與黑盒機器學(xué)習(xí) 119
6.2.1 可理解的機器學(xué)習(xí)模型 120
6.2.2 復(fù)雜模型的可解釋性 121
6.3 機器學(xué)習(xí)中的可解釋性方法 122
6.4 局部可解釋性技術(shù) 123
6.4.1 特征重要性 123
6.4.2 反事實解釋 125
6.4.3 基于樣本的可解釋性 125
6.4.4 基于規(guī)則的可解釋性 125
6.4.5 顯著圖 126
6.5 全局可解釋性技術(shù) 126
6.5.1 收集局部解釋 126
6.5.2 知識蒸餾 127
6.5.3 反事實總結(jié) 127
6.6 在Python中實踐機器學(xué)習(xí)的可解釋性 127
6.6.1 使用SHAP進(jìn)行解釋 128
6.6.2 使用LIME進(jìn)行解釋 134
6.6.3 使用多樣化反事實解釋（DiCE）的反事實生成 138
6.7 僅有可解釋性還不夠 140
6.8 小結(jié) 140
6.9 思考題 141
6.10 參考文獻(xiàn) 141
第7章減少偏差并實現(xiàn)公平性 143
7.1 技術(shù)要求 143
7.2 機器學(xué)習(xí)建模中的公平性 144
7.2.1 人口平等 144
7.2.2 概率均等 145
7.2.3 機會平等 145
7.2.4 敏感變量的代理 146
7.3 偏差的來源 146
7.3.1 數(shù)據(jù)生成和收集中引入的偏差 146
7.3.2 模型訓(xùn)練和測試中的偏差 149
7.3.3 生產(chǎn)環(huán)境中的偏差 150
7.4 使用可解釋性技術(shù) 150
7.4.1 查看整體數(shù)據(jù)集的SHAP匯總圖 150
7.4.2 找到要分析偏差的特征 151
7.4.3 進(jìn)行特征之間的相關(guān)性分析 151
7.4.4 對特征進(jìn)行可解釋性分析 152
7.5 Python中的公平性評估和改進(jìn) 154
7.5.1 提供了機器學(xué)習(xí)公平性相關(guān)功能的Python庫 154
7.5.2 計算敏感特征的差異影響比 155
7.5.3 使用拒絕選項分類 156
7.6 小結(jié) 158
7.7 思考題 158
7.8 參考文獻(xiàn) 159
第3篇低錯誤的機器學(xué)習(xí)開發(fā)與部署
第8章使用測試驅(qū)動開發(fā)以控制風(fēng)險 163
8.1 技術(shù)要求 163
8.2 機器學(xué)習(xí)建模的測試驅(qū)動開發(fā) 164
8.2.1 單元測試 164
8.2.2 Pytest的基本操作步驟 164
8.2.3 確定要為其設(shè)計單元測試的組件 165
8.2.4 定義單元測試函數(shù) 166
8.2.5 運行Pytest 166
8.2.6 Pytest固定裝置 168
8.3 機器學(xué)習(xí)差異測試 169
8.4 跟蹤機器學(xué)習(xí)實驗 171
8.4.1 選擇機器學(xué)習(xí)實驗跟蹤工具的重要注意事項 171
8.4.2 常用的機器學(xué)習(xí)實驗跟蹤工具 172
8.4.3 使用MLflow Tracking 172
8.5 小結(jié) 175
8.6 思考題 175
8.7 參考文獻(xiàn) 176
第9章生產(chǎn)測試和調(diào)試 177
9.1 技術(shù)要求 177
9.2 基礎(chǔ)設(shè)施測試 178
9.2.1 基礎(chǔ)設(shè)施即代碼工具 178
9.2.2 基礎(chǔ)設(shè)施測試工具 179
9.2.3 使用Pytest進(jìn)行基礎(chǔ)設(shè)施測試 180
9.3 機器學(xué)習(xí)管道的集成測試 180
9.3.1 集成測試的主要內(nèi)容 181
9.3.2 集成測試的流行工具 181
9.3.3 使用Pytest進(jìn)行集成測試 182
9.3.4 使用requests和Pytest進(jìn)行集成測試 183
9.4 監(jiān)控和驗證實時性能 184
9.4.1 通過監(jiān)控了解部署前模型和生產(chǎn)環(huán)境中模型之間的差異 184
9.4.2 可用于監(jiān)控模型的Python工具 185
9.4.3 數(shù)據(jù)漂移評估方法 186
9.5 模型斷言 186
9.5.1 模型斷言的用途 186
9.5.2 在Python中使用模型斷言 187
9.6 小結(jié) 188
9.7 思考題 189
9.8 參考文獻(xiàn) 189
第10章版本控制和可再現(xiàn)的機器學(xué)習(xí)建模 191
10.1 技術(shù)要求 191
10.2 機器學(xué)習(xí)中的可再現(xiàn)性 192
10.3 數(shù)據(jù)版本控制 193
10.3.1 常用的數(shù)據(jù)版本控制工具 193
10.3.2 數(shù)據(jù)版本控制示例 194
10.4 模型版本控制 195
10.4.1 理解模型版本控制的必要性 195
10.4.2 執(zhí)行模型版本控制的要點 196
10.5 小結(jié) 197
10.6 思考題 197
10.7 參考文獻(xiàn) 197
第11章避免數(shù)據(jù)漂移和概念漂移 199
11.1 技術(shù)要求 199
11.2 避免模型漂移 200
11.2.1 避免數(shù)據(jù)漂移 200
11.2.2 解決概念漂移問題 202
11.3 檢測漂移 202
11.3.1 使用alibi_detect進(jìn)行漂移檢測練習(xí) 202
11.3.2 使用evidently進(jìn)行漂移檢測練習(xí) 205
11.4 小結(jié) 208
11.5 思考題 208
11.6 參考文獻(xiàn) 208
第4篇深度學(xué)習(xí)建模
第12章通過深度學(xué)習(xí)超越機器學(xué)習(xí)調(diào)試 211
12.1 技術(shù)要求 211
12.2 人工神經(jīng)網(wǎng)絡(luò)簡介 211
12.2.1 全連接神經(jīng)網(wǎng)絡(luò) 212
12.2.2 優(yōu)化算法 214
12.3 神經(jīng)網(wǎng)絡(luò)建?？蚣?216
12.3.1 用于深度學(xué)習(xí)建模的PyTorch 216
12.3.2 訓(xùn)練模型 219
12.3.3 深度學(xué)習(xí)的超參數(shù)調(diào)優(yōu) 220
12.3.4 PyTorch中的模型可解釋性 221
12.3.5 PyTorch開發(fā)的深度學(xué)習(xí)模型的公平性 221
12.3.6 PyTorch Lightning 222
12.4 小結(jié) 222
12.5 思考題 223
12.6 參考文獻(xiàn) 223
第13章高級深度學(xué)習(xí)技術(shù) 225
13.1 技術(shù)要求 225
13.2 神經(jīng)網(wǎng)絡(luò)的類型 226
13.2.1 基于數(shù)據(jù)類型的分類 226
13.2.2 不同數(shù)據(jù)類型示例 227
13.2.3 將不同類型數(shù)據(jù)重新格式化為表格數(shù)據(jù)的一些挑戰(zhàn) 227
13.3 用于圖像形狀數(shù)據(jù)的卷積神經(jīng)網(wǎng)絡(luò) 228
13.3.1 卷積的概念 228
13.3.2 卷積神經(jīng)網(wǎng)絡(luò)的應(yīng)用 229
13.3.3 卷積神經(jīng)網(wǎng)絡(luò)的常用模型 230
13.3.4 性能評估 231
13.3.5 使用PyTorch進(jìn)行CNN建模 232
13.3.6 卷積神經(jīng)網(wǎng)絡(luò)的圖像數(shù)據(jù)轉(zhuǎn)換和增強 234
13.3.7 使用預(yù)先訓(xùn)練的模型 235
13.4 用于語言建模的Transformer 236
13.4.1 標(biāo)記化 238
13.4.2 語言嵌入 241
13.4.3 使用預(yù)訓(xùn)練模型進(jìn)行語言建模 241
13.5 使用深度神經(jīng)網(wǎng)絡(luò)對圖進(jìn)行建模 243
13.5.1 認(rèn)識圖 244
13.5.2 圖神經(jīng)網(wǎng)絡(luò) 245
13.5.3 使用PyTorch Geometric構(gòu)建圖神經(jīng)網(wǎng)絡(luò) 246
13.6 小結(jié) 250
13.7 思考題 250
13.8 參考文獻(xiàn) 251
第14章機器學(xué)習(xí)最新進(jìn)展簡介 255
14.1 技術(shù)要求 255
14.2 生成式建模 255
14.2.1 ChatGPT和其他生成式AI的成功故事 256
14.2.2 生成式深度學(xué)習(xí)技術(shù) 257
14.2.3 基于文本的生成式模型的提示工程 258
14.2.4 使用PyTorch進(jìn)行生成式建模 260
14.3 強化學(xué)習(xí) 262
14.3.1 基于人類反饋的強化學(xué)習(xí) 263
14.3.2 使用PyTorch設(shè)計RLHF 263
14.4 自監(jiān)督學(xué)習(xí) 265
14.4.1 常見自監(jiān)督學(xué)習(xí)技術(shù) 266
14.4.2 使用PyTorch進(jìn)行自監(jiān)督學(xué)習(xí) 266
14.5 小結(jié) 269
14.6 思考題 269
14.7 參考文獻(xiàn) 269
第5篇模型調(diào)試的高級主題
第15章相關(guān)性與因果關(guān)系 275
15.1 技術(shù)要求 275
15.2 作為機器學(xué)習(xí)模型一部分的相關(guān)性 276
15.3 因果建?？山档惋L(fēng)險并提高性能 276
15.4 評估機器學(xué)習(xí)模型中的因果關(guān)系 278
15.4.1 識別因果特征的方法 278
15.4.2 因果推理 279
15.4.3 貝葉斯網(wǎng)絡(luò) 281
15.5 使用Python進(jìn)行因果建模 282
15.5.1 使用dowhy進(jìn)行因果效應(yīng)估計 282
15.5.2 使用bnlearn通過貝葉斯網(wǎng)絡(luò)進(jìn)行因果推理 284
15.6 小結(jié) 286
15.7 思考題 287
15.8 參考文獻(xiàn) 287
第16章機器學(xué)習(xí)中的安全性和隱私 289
16.1 技術(shù)要求 289
16.2 加密技術(shù)及其在機器學(xué)習(xí)中的應(yīng)用 290
16.2.1 常見加密技術(shù) 290
16.2.2 在Python中實現(xiàn)AES加密 290
16.3 同態(tài)加密 292
16.4 差分隱私 293
16.5 聯(lián)邦學(xué)習(xí) 295
16.6 小結(jié) 297
16.7 思考題 297
16.8 參考文獻(xiàn) 297
第17章人機回圈機器學(xué)習(xí) 299
17.1 機器學(xué)習(xí)生命周期中的人類 299
17.1.1 主動和被動人機回圈 300
17.1.2 專家反饋收集 300
17.2 人機回圈建模 301
17.3 小結(jié) 302
17.4 思考題 303
17.5 參考文獻(xiàn) 303
附錄A 思考題答案 305
第1章超越代碼調(diào)試 305
第2章機器學(xué)習(xí)生命周期 307
第3章為實現(xiàn)負(fù)責(zé)任的人工智能而進(jìn)行調(diào)試 307
第4章檢測機器學(xué)習(xí)模型中的性能和效率問題 308
第5章提高機器學(xué)習(xí)模型的性能 309
第6章機器學(xué)習(xí)建模中的可解釋性和可理解性 311
第7章減少偏差并實現(xiàn)公平性 312
第8章使用測試驅(qū)動開發(fā)以控制風(fēng)險 313
第9章生產(chǎn)測試和調(diào)試 313
第10章版本控制和可再現(xiàn)的機器學(xué)習(xí)建模 315
第11章避免數(shù)據(jù)漂移和概念漂移 315
第12章通過深度學(xué)習(xí)超越機器學(xué)習(xí)調(diào)試 316
第13章高級深度學(xué)習(xí)技術(shù) 316
第14章機器學(xué)習(xí)最新進(jìn)展簡介 317
第15章相關(guān)性與因果關(guān)系 318
第16章機器學(xué)習(xí)中的安全性和隱私 318
第17章人機回圈機器學(xué)習(xí) 319