注冊(cè) | 登錄讀書好,好讀書,讀好書!
讀書網(wǎng)-DuShu.com
當(dāng)前位置: 首頁(yè)出版圖書科學(xué)技術(shù)計(jì)算機(jī)/網(wǎng)絡(luò)人工智能機(jī)器學(xué)習(xí)流水線實(shí)戰(zhàn)

機(jī)器學(xué)習(xí)流水線實(shí)戰(zhàn)

機(jī)器學(xué)習(xí)流水線實(shí)戰(zhàn)

定 價(jià):¥109.80

作 者: [美] 漢內(nèi)斯·哈普克(Hannes Hapke) 著,孔曉泉,鄭煒,江駿 譯
出版社: 人民郵電出版社
叢編項(xiàng):
標(biāo) 簽: 暫缺

ISBN: 9787115573216 出版時(shí)間: 2021-11-01 包裝: 平裝
開本: 16開 頁(yè)數(shù): 276 字?jǐn)?shù):  

內(nèi)容簡(jiǎn)介

  本書介紹如何構(gòu)建完整的機(jī)器學(xué)習(xí)流水線,從而在生產(chǎn)環(huán)境中準(zhǔn)備數(shù)據(jù)以及訓(xùn)練、驗(yàn)證、部署和管理機(jī)器學(xué)習(xí)模型。你將了解機(jī)器學(xué)習(xí)流水線的每個(gè)環(huán)節(jié),以及如何利用TensorFlow Extended(TFX)構(gòu)建機(jī)器學(xué)習(xí)流水線。模型的生命周期是一個(gè)閉環(huán),其中包括數(shù)據(jù)讀取、數(shù)據(jù)校驗(yàn)、數(shù)據(jù)預(yù)處理、模型訓(xùn)練、模型分析、模型驗(yàn)證、模型部署、模型反饋等環(huán)節(jié)。你將學(xué)習(xí)如何利用Beam、Airflow、Kubeflow、TensorFlow Serving等工具將每一個(gè)環(huán)節(jié)的工作自動(dòng)化。學(xué)完本書,你將不再止步于訓(xùn)練單個(gè)模型,而是能夠從更高的角度將模型產(chǎn)品化,從而為公司創(chuàng)造更大的價(jià)值。

作者簡(jiǎn)介

  漢內(nèi)斯·哈普克(Hannes Hapke),數(shù)據(jù)科學(xué)家,善于解決各行各業(yè)的機(jī)器學(xué)習(xí)問(wèn)題,與他人合著有《自然語(yǔ)言處理實(shí)戰(zhàn)》。 凱瑟琳·納爾遜(Catherine Nelson),數(shù)據(jù)科學(xué)家,牛津大學(xué)碩士,長(zhǎng)期為企業(yè)提供機(jī)器學(xué)習(xí)解決方案。【譯者介紹】孔曉泉,谷歌認(rèn)證機(jī)器學(xué)習(xí)專業(yè)人士,TensorFlow Addons的Codeowner之一,上海TensorFlow User Group核心組織者,多年來(lái)一直在世界500強(qiáng)公司帶領(lǐng)團(tuán)隊(duì)構(gòu)建機(jī)器學(xué)習(xí)應(yīng)用和平臺(tái)。另外,他還作為技術(shù)審稿人參與了TensorFlow文檔的本地化工作。鄭煒,明尼蘇達(dá)大學(xué)雙子城分校機(jī)械工程碩士,伊利諾伊大學(xué)香檳分校機(jī)械工程學(xué)士,谷歌認(rèn)證機(jī)器學(xué)習(xí)專業(yè)人士,ABB電氣事業(yè)部中國(guó)技術(shù)中心算法項(xiàng)目經(jīng)理、算法工程師,參與算法開發(fā)和算法工作流搭建等工作。江駿,螞蟻集團(tuán)技專業(yè)人士(花名“有練”)、谷歌認(rèn)證機(jī)器學(xué)習(xí)專業(yè)人士、螞蟻云原生機(jī)器學(xué)習(xí)平臺(tái)技術(shù)負(fù)責(zé)人,專注于AI基礎(chǔ)架構(gòu)和訓(xùn)練框架優(yōu)化。

圖書目錄

本書贊譽(yù) xiii
序 xv
前言 xvii
第 1 章 入門 1
1.1 為什么要用機(jī)器學(xué)習(xí)流水線 1
1.2 什么時(shí)候考慮使用機(jī)器學(xué)習(xí)流水線 2
1.3 機(jī)器學(xué)習(xí)流水線步驟概述 3
1.3.1 數(shù)據(jù)讀取和版本控制 4
1.3.2 數(shù)據(jù)校驗(yàn) 4
1.3.3 數(shù)據(jù)預(yù)處理 4
1.3.4 模型訓(xùn)練和模型調(diào)優(yōu) 5
1.3.5 模型分析 5
1.3.6 模型版本控制 5
1.3.7 模型部署 6
1.3.8 反饋循環(huán) 6
1.3.9 數(shù)據(jù)隱私 6
1.4 流水線編排 7
1.4.1 為什么使用流水線編排工具 7
1.4.2 有向無(wú)環(huán)圖 7
1.5 示例項(xiàng)目 8
1.5.1 項(xiàng)目結(jié)構(gòu) 9
1.5.2 機(jī)器學(xué)習(xí)模型 9
1.5.3 示例項(xiàng)目的目標(biāo) 10
1.6 小結(jié) 10
第 2 章 TensorFlow Extended入門 11
2.1 什么是TFX 12
2.2 安裝TFX 13
2.3 TFX組件概述 14
2.4 什么是機(jī)器學(xué)習(xí)元數(shù)據(jù) 15
2.5 交互式流水線 16
2.6 TFX的替代品 17
2.7 Apache Beam簡(jiǎn)介 18
2.7.1 安裝 18
2.7.2 基本數(shù)據(jù)流水線 19
2.7.3 執(zhí)行流水線 22
2.8 小結(jié) 22
第 3 章 數(shù)據(jù)讀取 23
3.1 數(shù)據(jù)讀取的概念 23
3.1.1 讀取本地?cái)?shù)據(jù)文件 24
3.1.2 讀取遠(yuǎn)程數(shù)據(jù)文件 29
3.1.3 直接從數(shù)據(jù)庫(kù)中讀取數(shù)據(jù) 29
3.2 數(shù)據(jù)準(zhǔn)備 31
3.2.1 拆分?jǐn)?shù)據(jù)集 31
3.2.2 跨越數(shù)據(jù)集 33
3.2.3 對(duì)數(shù)據(jù)集進(jìn)行版本控制 34
3.3 數(shù)據(jù)讀取策略 34
3.3.1 結(jié)構(gòu)化數(shù)據(jù) 35
3.3.2 自然語(yǔ)言處理中的文本數(shù)據(jù) 35
3.3.3 用于計(jì)算機(jī)視覺(jué)問(wèn)題的圖像數(shù)據(jù) 35
3.4 小結(jié) 36
第 4 章 數(shù)據(jù)校驗(yàn) 37
4.1 為什么要進(jìn)行數(shù)據(jù)校驗(yàn) 38
4.2 TFDV 39
4.2.1 安裝 39
4.2.2 根據(jù)數(shù)據(jù)生成統(tǒng)計(jì)信息 40
4.2.3 從數(shù)據(jù)生成模式 41
4.3 識(shí)別數(shù)據(jù)中的問(wèn)題 42
4.3.1 比較數(shù)據(jù)集 43
4.3.2 更新模式 44
4.3.3 數(shù)據(jù)偏斜和漂移 45
4.3.4 存在偏差的數(shù)據(jù)集 46
4.3.5 在TFDV中切分?jǐn)?shù)據(jù) 47
4.4 使用GCP處理大型數(shù)據(jù)集 49
4.5 將TFDV集成到機(jī)器學(xué)習(xí)流水線中 51
4.6 小結(jié) 53
第 5 章 數(shù)據(jù)預(yù)處理 54
5.1 為什么要進(jìn)行數(shù)據(jù)預(yù)處理 55
5.1.1 在整個(gè)數(shù)據(jù)集的上下文中預(yù)處理數(shù)據(jù) 55
5.1.2 擴(kuò)展預(yù)處理步驟 55
5.1.3 避免訓(xùn)練–服務(wù)偏斜 55
5.1.4 將預(yù)處理步驟和機(jī)器學(xué)習(xí)模型作為一個(gè)工件進(jìn)行部署 56
5.1.5 檢查流水線中的預(yù)處理結(jié)果 56
5.2 使用TFT做數(shù)據(jù)預(yù)處理 57
5.2.1 安裝 58
5.2.2 預(yù)處理策略 58
5.2.3 最佳實(shí)踐 60
5.2.4 TFT函數(shù) 60
5.2.5 TFT的獨(dú)立執(zhí)行 63
5.2.6 將TFT集成到機(jī)器學(xué)習(xí)流水線中 64
5.3 小結(jié) 67
第 6 章 模型訓(xùn)練 68
6.1 定義示例項(xiàng)目的模型 69
6.2 TFX Trainer組件 72
6.2.1 run_fn()函數(shù) 72
6.2.2 運(yùn)行Trainer組件 76
6.2.3 其他關(guān)于Trainer組件的注意事項(xiàng) 77
6.3 在交互式流水線中使用TensorBoard 78
6.4 分布策略 80
6.5 模型調(diào)整 82
6.5.1 超參數(shù)調(diào)整的策略 82
6.5.2 TFX流水線中的超參數(shù)調(diào)整 83
6.6 小結(jié) 83
第 7 章 模型分析和模型驗(yàn)證 84
7.1 如何分析模型 85
7.1.1 分類指標(biāo) 85
7.1.2 回歸指標(biāo) 87
7.2 TensorFlow模型分析 88
7.2.1 用TFMA分析單個(gè)模型 88
7.2.2 用TFMA分析多個(gè)模型 91
7.3 模型公平性分析 93
7.3.1 用TFMA劃分模型預(yù)測(cè) 94
7.3.2 用公平性指標(biāo)檢查決策閾值 96
7.3.3 詳解假設(shè)分析工具 98
7.4 模型可解釋性 102
7.4.1 使用WIT生成模型解釋 103
7.4.2 其他模型解釋方法 105
7.5 用TFX進(jìn)行分析和驗(yàn)證 106
7.5.1 ResolverNode 106
7.5.2 Evaluator組件 107
7.5.3 用Evaluator組件進(jìn)行驗(yàn)證 107
7.5.4 TFX Pusher組件 108
7.6 小結(jié) 109
第 8 章 用TensorFlow Serving部署模型 110
8.1 簡(jiǎn)單的模型服務(wù)器 111
8.2 基于Python API部署模型的缺點(diǎn) 112
8.2.1 缺少代碼隔離 112
8.2.2 缺少模型版本控制 112
8.2.3 低效的模型推算 112
8.3 TensorFlow Serving 113
8.4 TensorFlow Serving架構(gòu)概述 113
8.5 為TensorFlow Serving導(dǎo)出模型 113
8.6 模型簽名 115
8.7 查看導(dǎo)出的模型 117
8.7.1 查看模型 118
8.7.2 測(cè)試模型 119
8.8 設(shè)置TensorFlow Serving 120
8.8.1 Docker安裝 120
8.8.2 原生Ubuntu安裝 120
8.8.3 從源碼編譯TensorFlow Serving 121
8.9 配置TensorFlow服務(wù)器 121
8.9.1 單一模型配置 121
8.9.2 多模型配置 124
8.10 REST與gRPC 126
8.10.1 REST 126
8.10.2 gRPC 126
8.11 用模型服務(wù)器預(yù)測(cè) 126
8.11.1 用REST獲得模型預(yù)測(cè) 126
8.11.2 通過(guò)gRPC使用TensorFlow Serving 128
8.12 用TensorFlow Serving進(jìn)行模型A/B測(cè)試 131
8.13 從模型服務(wù)器獲取模型元數(shù)據(jù) 132
8.13.1 使用REST請(qǐng)求模型元數(shù)據(jù) 132
8.13.2 使用gRPC請(qǐng)求模型元數(shù)據(jù) 133
8.14 批量推算請(qǐng)求 134
8.15 配置批量預(yù)測(cè) 135
8.16 其他TensorFlow Serving優(yōu)化方法 136
8.17 TensorFlow Serving的替代品 137
8.17.1 BentoML 137
8.17.2 Seldon 138
8.17.3 GraphPipe 138
8.17.4 Simple TensorFlow Serving 138
8.17.5 MLflow 138
8.17.6 Ray Serve 139
8.18 在云端部署 139
8.18.1 用例 139
8.18.2 在GCP上進(jìn)行示例部署 139
8.19 使用TFX流水線進(jìn)行模型部署 144
8.20 小結(jié) 145
第 9 章 使用TensorFlow Serving進(jìn)行進(jìn)階模型部署 146
9.1 解耦部署環(huán)節(jié) 146
9.1.1 工作流概述 147
9.1.2 優(yōu)化遠(yuǎn)程模型加載 149
9.2 為部署模型進(jìn)行優(yōu)化 149
9.2.1 量化 149
9.2.2 剪枝 150
9.2.3 蒸餾 151
9.3 在TensorFlow Serving中使用TensorRT 151
9.4 TFLite 152
9.4.1 用TFLite優(yōu)化模型的步驟 152
9.4.2 使用TensorFlow Serving實(shí)例部署TFLite模型 153
9.5 監(jiān)測(cè)TensorFlow Serving實(shí)例 154
9.5.1 設(shè)置Prometheus 154
9.5.2 TensorFlow Serving配置 156
9.6 使用TensorFlow Serving和Kubernetes進(jìn)行簡(jiǎn)單的擴(kuò)容 157
9.7 小結(jié) 159
第 10 章 TensorFlow Extended的高級(jí)功能 160
10.1 流水線的高級(jí)功能 160
10.1.1 同時(shí)訓(xùn)練多個(gè)模型 161
10.1.2 導(dǎo)出TFLite模型 162
10.1.3 熱啟動(dòng)模型訓(xùn)練 164
10.2 人工審核 165
10.2.1 創(chuàng)建Slack組件 166
10.2.2 如何使用Slack組件 166
10.3 TFX自定義組件 167
10.3.1 自定義組件的應(yīng)用場(chǎng)景 168
10.3.2 從零創(chuàng)建自定義組件 168
10.3.3 復(fù)用現(xiàn)有組件 176
10.4 小結(jié) 179
第 11 章 流水線第 一部分:Apache Beam和Apache Airflow 180
11.1 選擇哪種編排工具 181
11.1.1 Apache Beam 181
11.1.2 Apache Airflow 181
11.1.3 Kubeflow Pipelines 181
11.1.4 AI Platform上的Kubeflow Pipelines 182
11.2 將交互式TFX流水線轉(zhuǎn)換為生產(chǎn)流水線 182
11.3 Beam和Airflow的簡(jiǎn)單交互式流水線轉(zhuǎn)換 184
11.4 Apache Beam簡(jiǎn)介 185
11.5 使用Apache Beam編排TFX流水線 185
11.6 Apache Airflow簡(jiǎn)介 187
11.6.1 安裝和初始設(shè)置 187
11.6.2 基本Airflow示例 188
11.7 使用Apache Airflow編排TFX流水線 191
11.7.1 流水線設(shè)置 192
11.7.2 運(yùn)行流水線 193
11.8 小結(jié) 194
第 12 章 流水線第二部分:Kubeflow Pipelines 195
12.1 Kubeflow Pipelines概述 196
12.1.1 安裝和初始設(shè)置 198
12.1.2 訪問(wèn)已安裝的Kubeflow Pipelines 199
12.2 使用Kubeflow Pipelines編排TFX流水線 200
12.2.1 流水線設(shè)置 202
12.2.2 運(yùn)行流水線 206
12.2.3 Kubeflow Pipelines的有用功能 211
12.3 基于Google Cloud AI Platform的流水線 215
12.3.1 流水線設(shè)置 215
12.3.2 TFX流水線設(shè)置 218
12.3.3 運(yùn)行流水線 221
12.4 小結(jié) 222
第 13 章 反饋循環(huán) 223
13.1 顯式反饋和隱式反饋 224
13.1.1 數(shù)據(jù)飛輪 224
13.1.2 現(xiàn)實(shí)世界中的反饋循環(huán) 225
13.2 收集反饋的設(shè)計(jì)模式 227
13.2.1 用戶根據(jù)預(yù)測(cè)采取了某些措施 227
13.2.2 用戶對(duì)預(yù)測(cè)的質(zhì)量進(jìn)行評(píng)分 228
13.2.3 用戶糾正預(yù)測(cè) 228
13.2.4 眾包打標(biāo) 228
13.2.5 專家打標(biāo) 229
13.2.6 自動(dòng)產(chǎn)生反饋 229
13.3 如何跟蹤反饋循環(huán) 229
13.3.1 跟蹤顯式反饋 230
13.3.2 跟蹤隱式反饋 230
13.4 小結(jié) 231
第 14 章 機(jī)器學(xué)習(xí)的數(shù)據(jù)隱私 232
14.1 數(shù)據(jù)隱私問(wèn)題 232
14.1.1 為什么關(guān)心數(shù)據(jù)隱私 232
14.1.2 最簡(jiǎn)單的加強(qiáng)隱私保護(hù)的方法 233
14.1.3 哪些數(shù)據(jù)需要保密 233
14.2 差分隱私 234
14.2.1 局部差分隱私和全局差分隱私 235
14.2.2 epsilon、delta和隱私預(yù)算 235
14.2.3 機(jī)器學(xué)習(xí)的差分隱私 236
14.3 TensorFlow Privacy 236
14.3.1 使用差分隱私優(yōu)化器進(jìn)行訓(xùn)練 237
14.3.2 計(jì)算epsilon 238
14.4 聯(lián)邦學(xué)習(xí) 239
14.5 加密機(jī)器學(xué)習(xí) 241
14.5.1 加密模型訓(xùn)練 241
14.5.2 將訓(xùn)練好的模型轉(zhuǎn)換為加密的預(yù)測(cè)服務(wù) 242
14.6 其他數(shù)據(jù)保密方法 243
14.7 小結(jié) 243
第 15 章 流水線的未來(lái)和下一步 244
15.1 模型實(shí)驗(yàn)跟蹤 244
15.2 關(guān)于模型發(fā)布管理的思考 245
15.3 未來(lái)的流水線能力 246
15.4 TFX與其他機(jī)器學(xué)習(xí)框架 246
15.5 測(cè)試機(jī)器學(xué)習(xí)模型 247
15.6 用于機(jī)器學(xué)習(xí)的CI/CD系統(tǒng) 247
15.7 機(jī)器學(xué)習(xí)工程社區(qū) 247
15.8 小結(jié) 247
附錄A 機(jī)器學(xué)習(xí)基礎(chǔ)架構(gòu)簡(jiǎn)介 249
附錄B 在Google Cloud上設(shè)置Kubernetes集群 262
附錄C 操作Kubeflow Pipelines的技巧 268
關(guān)于作者 276
關(guān)于封面 276

本目錄推薦

掃描二維碼
Copyright ? 讀書網(wǎng) m.ranfinancial.com 2005-2020, All Rights Reserved.
鄂ICP備15019699號(hào) 鄂公網(wǎng)安備 42010302001612號(hào)