注冊 | 登錄讀書好,好讀書,讀好書!
讀書網(wǎng)-DuShu.com
當前位置: 首頁出版圖書科學技術(shù)計算機/網(wǎng)絡人工智能深度學習計算機視覺

深度學習計算機視覺

深度學習計算機視覺

定 價:¥128.00

作 者: (埃及)穆罕默德·埃爾根迪(Mohamed Elgendy)著
出版社: 清華大學出版社
叢編項:
標 簽: 暫缺

ISBN: 9787302609940 出版時間: 2022-08-01 包裝: 平裝
開本: 頁數(shù): 字數(shù):  

內(nèi)容簡介

  計算機視覺有多先進?開一開特斯拉就知道了。深度學習技術(shù)已在人臉識別、交互式仿真和醫(yī)學成像方面取得令人興奮的突破,但最讓人心潮澎湃的當屬自動駕駛技術(shù)。如今,自動駕駛的汽車已經(jīng)能在高速路上暢意馳騁并對各種復雜路況做出靈活反應了。計算機如何“理解”它所“看到”的東西?本書試圖將深度學習應用于計算機視覺以回答該問題。本書僅用高中代數(shù)知識闡明視覺直覺背后的概念。你將了解如何使用深度學習架構(gòu)來構(gòu)建視覺系統(tǒng)應用程序,以實現(xiàn)圖像生成和人臉識別功能。主要內(nèi)容●圖像分類和目標檢測●先進的深度學習架構(gòu)●遷移學習與生成對抗網(wǎng)絡●DeepDream和神經(jīng)風格遷移●視覺嵌入和圖像搜索

作者簡介

  Mohamed Elgendy,現(xiàn)任Rakuten(樂天)公司的工程副總裁,掌管該公司的AI平臺和產(chǎn)品的開發(fā)。此前,他曾擔任Synapse Technology公司的工程主管,負責開發(fā)專用于世界范圍內(nèi)安全威脅檢測的計算機視覺應用程序;后在亞馬遜建立并管理了一支中央AI團隊。該團隊充當AWS和Amazon Go等亞馬遜工程團隊的深度學習智囊團。他還在亞馬遜機器學習大學(Amazon's Machine University)開發(fā)了計算機視覺的深度學習課程。時至今日,Mohamed還經(jīng)常在亞馬遜開發(fā)者大會、O'Reilly人工智能峰會和谷歌I/O大會上發(fā)表演講。

圖書目錄

第Ⅰ部分 深度學習基礎(chǔ)

1 章 概述3

1.1 計算機視覺 4

1.1.1 視覺感知的定義 4

1.1.2 視覺系統(tǒng) 4

1.1.3 感知設備 6

1.1.4 解譯設備 7

1.2 CV 應用 8

1.2.1 圖像分類 9

1.2.2 目標檢測與定位10

1.2.3 生成藝術(shù)(風格遷移) 11

1.2.4 圖像生成11

1.2.5 人臉識別12

1.2.6 圖片推薦系統(tǒng)13

1.3 計算機視覺管道概覽 14

1.4 圖像輸入 15

1.4.1 圖像的函數(shù)表達16

1.4.2 計算機讀取圖像17

1.4.3 彩色圖像17

1.5 圖像處理 19

1.6 特征提取 21

1.6.1 計算機視覺中特征的

定義22

1.6.2 有用特征的定義23

1.6.3 手動與自動的特征

提取25

1.7 分類器學習算法 27

1.8 本章小結(jié) 28

第2 章 深度學習和神經(jīng)網(wǎng)絡 29

2.1 理解感知機 30

2.1.1 感知機的定義31

2.1.2 感知機的學習機制34

2.1.3 單層感知機的

局限性35

2.2 多層感知機 36

2.2.1 多層感知機架構(gòu)37

2.2.2 關(guān)于隱藏層38

2.2.3 隱藏層的設計38

2.2.4 本節(jié)內(nèi)容拓展40

2.3 激活函數(shù) 41

2.3.1 線性轉(zhuǎn)移函數(shù)42

2.3.2 Heaviside 階躍函數(shù)

(二元分類器) 43

2.3.3 Sigmoid/logistic

函數(shù)43

2.3.4 Softmax 函數(shù)46

2.3.5 雙_3恄黖衉J曲正切函數(shù)

2.5.1 誤差函數(shù)的定義55

2.5.2 誤差函數(shù)的意義55

2.5.3 誤差為正的必要性55

2.5.4 均方誤差損失函數(shù)56

2.5.5 交叉熵損失函數(shù)57

2.5.6 關(guān)于誤差和權(quán)重的補充

說明58

2.6 優(yōu)化算法 59

2.6.1 優(yōu)化的定義59

2.6.2 批梯度下降62

2.6.3 隨機梯度下降67

2.6.4 小批梯度下降68

2.6.5 梯度下降總結(jié)68

2.7 反向傳播 69

2.7.1 反向傳播的定義70

2.7.2 反向傳播總結(jié)72

2.8 本章總結(jié) 73

第3 章 卷積神經(jīng)網(wǎng)絡75

3.1 使用MLP 進行圖像

分類 76

3.1.1 輸入層76

3.1.2 隱藏層78

3.1.3 輸出層78

3.1.4 組合78

3.1.5 MLP 處理圖像的

缺點80

3.2 CNN 架構(gòu) 82

3.2.1 概述83

3.2.2 特征提取詳解84

3.2.3 分類詳解85

3.3 CNN 的基本組件 85

3.3.1 卷積層86

3.3.2 池化層或下采樣92

3.3.3 全連接層96

3.4 使用CNN 進行圖像

分類 98

3.4.1 構(gòu)建模型體系架構(gòu)98

3.4.2 參數(shù)(權(quán)重)的數(shù)量100

3.5 添加dropout 層以避免

過擬合 101

3.5.1 過擬合定義101

3.5.2 dropout 層定義102

3.5.3 dropout 層的重要

意義102

3.5.4 dropout 層在CNN

架構(gòu)中的位置103

3.6 彩色(3D)圖像的卷積 104

3.6.1 彩色圖像的卷積105

3.6.2 計算復雜度的變化107

3.7 練習項目:彩色圖像

分類 109

3.8 本章總結(jié) 118

第4 章 構(gòu)造DL 項目以及超參數(shù)

調(diào)優(yōu)119

4.1 定義性能指標 120

4.1.1 選擇評價模型的最佳

指標120

4.1.2 混淆矩陣120

4.1.3 精確度和召回率121

4.1.4 F1 得分122

4.2 設計基準模型 122

4.3 為訓練準備數(shù)據(jù) 124

4.3.1 劃分數(shù)據(jù)集124

4.3.2 數(shù)據(jù)處理125

4.4 評估模型并解釋其

性能 127

4.4.1 診斷過擬合和

欠擬合127

4.4.2 繪制學習曲線129

4.4.3 練習項目:構(gòu)建、

訓練和評估網(wǎng)絡129

4.5 網(wǎng)絡改進和超參數(shù)

調(diào)優(yōu) 132

4.5.1 收集更多數(shù)據(jù)與超

參數(shù)調(diào)優(yōu)132

4.5.2 參數(shù)與超參數(shù)133

4.5.3 神經(jīng)網(wǎng)絡超參數(shù)133

4.5.4 網(wǎng)絡架構(gòu)134

4.6 學習和優(yōu)化 135

4.6.1 學習率及其衰減

策略135

4.6.2 找到最佳學習率的

系統(tǒng)性方法138

4.6.3 學習率衰減和自適應

學習138

4.6.4 小批大小139

4.7 優(yōu)化算法 141

4.7.1 動量梯度下降142

4.7.2 Adam 142

4.7.3 訓練輪數(shù)和早停

標準143

4.7.4 Early stopping144

4.8 正則化技術(shù) 144

4.8.1 L2 正則化145

4.8.2 Dropout 層146

4.8.3 數(shù)據(jù)增強146

4.9 批歸一化 147

4.9.1 協(xié)變量偏移問題148

4.9.2 神經(jīng)網(wǎng)絡中的協(xié)變量

偏移148

4.9.3 批歸一化的工作

原理149

4.9.4 批歸一化在keras 中的

實現(xiàn)150

4.9.5 批歸一化回顧151

4.10 練習項目:實現(xiàn)高準確度

的圖像分類 151

4.11 本章小結(jié) 157

 

第Ⅱ部分 圖像分類和檢測

第5 章 先進的CNN 架構(gòu) 161

5.1 CNN 設計模式 162

5.2 LeNet-5 164

5.2.1 LeNet 架構(gòu)164

5.2.2 LeNet-5 在Keras 中的

實現(xiàn)165

5.2.3 設置學習超參數(shù)167

5.2.4 LeNet 在MNIST 數(shù)據(jù)

集上的性能168

5.3 AlexNet 168

5.3.1 AlexNet 網(wǎng)絡架構(gòu)169

5.3.2 AlexNet 的新特性169

5.3.3 Keras 中的AlexNet

實現(xiàn)171

5.3.4 設置學習超參數(shù)174

5.3.5 AlexNet 的性能174

5.4 VGGNet 175

5.4.1 VGGNet 新特性175

5.4.2 VGGNet 配置176

5.4.3 學習超參數(shù)179

5.4.4 VGGNet 性能179

5.5 Inception 和

GoogLeNet 179

5.5.1 Inception 新特性180

5.5.2 Inception 模塊:

Naive 版181

5.5.3 Inception 模塊與維數(shù)

約減182

5.5.4 Inception 體系架構(gòu)184

5.5.5 GoogLeNet 的Keras

實現(xiàn)185

5.5.6 學習參數(shù)190

5.5.7 Inception 在CIFAR

數(shù)據(jù)集上的性能190

5.6 ResNet 191

5.6.1 ResNet 新特性191

5.6.2 殘差塊193

5.6.3 keras 中的ResNet

實現(xiàn)195

5.6.4 學習超參數(shù)197

5.6.5 ResNet 在CIFAR

數(shù)據(jù)集上的性能197

5.7 本章小結(jié) 198

第6 章 遷移學習199

6.1 遷移學習的必要性 200

6.2 遷移學習的定義 201

6.3 遷移學習的工作原理 207

6.3.1 神經(jīng)網(wǎng)絡如何學習

特征208

6.3.2 網(wǎng)絡后期提取的特征

的可遷移性210

6.4 遷移學習方法 210

6.4.1 使用預訓練網(wǎng)絡作為

分類器210

6.4.2 使用預訓練網(wǎng)絡作為

特征提取器212

6.4.3 微調(diào)213

6.5 選擇合適的遷移學習

方法 215

6.5.1 場景1:目標數(shù)據(jù)集

較小且與源數(shù)據(jù)集

相似215

6.5.2 場景2:目標數(shù)據(jù)集

較大且與源數(shù)據(jù)集

相似216

6.5.3 場景3:目標數(shù)據(jù)集

較小且與源數(shù)據(jù)集

不同216

6.5.4 場景4:目標數(shù)據(jù)集

較大且與源數(shù)據(jù)集

不同216

6.5.5 遷移學習場景總結(jié)216

6.6 開源數(shù)據(jù)集 217

6.6.1 MNIST 217

6.6.2 Fashion-MNIST 218

6.6.3 CIFAR 218

6.6.4 ImageNet 219

6.6.5 MS COCO 221

6.6.6 Google Open

Images222

6.6.7 Kaggle222

6.7 項目1:預訓練網(wǎng)絡作為

特征提取器 222

6.8 項目2:微調(diào) 228

6.9 本章小結(jié) 235

第7 章 使用R-CNN、SSD 和YOLO

進行目標檢測 237

7.1 目標檢測的通用框架 238

7.1.1 候選區(qū)域239

7.1.2 網(wǎng)絡預測240

7.1.3 非極大值抑制

(NMS) 241

7.1.4 目標檢測器的評價

指標241

7.2 R-CNN 244

7.2.1 R-CNN 244

7.2.2 Fast R-CNN 248

7.2.3 Faster R-CNN 250

7.2.4 R-CNN 家族總結(jié)256

7.3 SSD(Single-shot

detector) 259

7.3.1 SSD 架構(gòu)總覽259

7.3.2 基礎(chǔ)網(wǎng)絡261

7.3.3 多尺度特征層263

7.3.4 NMS266

7.4 YOLO(you only look

once)(320) 267

7.4.1 YOLO v3 的工作

機制268

7.4.2 YOLOv3 架構(gòu)270

7.5 項目:在自動駕駛中

應用SSD 網(wǎng)絡 272

7.5.1 步驟1:構(gòu)建模型274

7.5.2 步驟2:模型配置275

7.5.3 步驟3:創(chuàng)建模型276

7.5.4 步驟3:加載數(shù)據(jù)276

7.5.5 步驟5:訓練模型278

7.5.6 步驟6:可視化

損失279

7.5.7 步驟7:預測280

7.6 本章小結(jié) 281

 

第Ⅲ部分 生成模型與視覺嵌入

第8 章 生成對抗網(wǎng)絡285

8.1 GAN 架構(gòu) 286

8.1.1 Deep convolutional

GANs(DCGANs) 288

8.1.2 鑒別器模型288

8.1.3 生成器模型290

8.1.4 訓練GAN 293

8.1.5 GAN 極小極大值

函數(shù)296

8.2 評估GAN 模型 297

8.2.1 Inception score298

8.2.2 Fréchet inception distance

(FID)298

8.2.3 評估方案選擇299

8.3 GAN 的主流應用 299

8.3.1 文本生成圖像(Text-tophoto

synthesis)299

8.3.2 圖像翻譯(Pix2Pix

GAN) 300

8.3.3 圖像超分辨率

GAN(SRGAN)301

8.3.4 準備好動手了嗎302

8.4 練習項目:構(gòu)建自己的

GAN 302

8.5 本章小結(jié) 311

第9 章 DeepDream 和神經(jīng)風格

遷移 313

9.1 打開CNN 的黑盒 314

9.1.1 CNN 工作原理

回顧314

9.1.2 CNN 特征可視化315

9.1.3 特征可視化工具的

實現(xiàn)318

9.2 DeepDream 321

9.2.1 DeepDream 算法的工作

原理322

9.2.2 DeepDream 的Keras

實現(xiàn)324

9.3 神經(jīng)風格遷移 327

9.3.1 內(nèi)容損失329

9.3.2 風格損失(style

loss) 330

9.3.3 總變分損失(total variance

loss)332

9.3.4 網(wǎng)絡訓練332

9.4 本章小結(jié) 333

第10 章 視覺嵌入335

10.1 視覺嵌入的應用 336

10.1.1 人臉識別337

10.1.2 圖片推薦系統(tǒng)337

10.1.3 目標重識別系統(tǒng)339

10.2 學習嵌入 340

10.3 損失函數(shù) 341

10.3.1 問題建立和

形式化342

10.3.2 交差熵損失342

10.3.3 對比損失343

10.3.4 三元組損失344

10.3.5 損失的簡單實現(xiàn)和

運行分析345

10.4 挖掘信息數(shù)據(jù) 347

10.4.1 數(shù)據(jù)加載器347

10.4.2 信息型數(shù)據(jù)挖掘:尋找

有用的三元組349

10.4.3 Batch All(BA)350

10.4.4 Batch Hard(BH) 351

10.4.5 batch weighted

(BW)353

10.4.6 Batch Sample

(BS)354

10.5 練習項目:訓練嵌入

網(wǎng)絡 355

10.5.1 時尚圈:查找相似的

衣服356

10.5.2 車輛重識別356

10.5.3 實現(xiàn)357

10.5.4 測試訓練的模型358

10.6 突破準確度的限制 362

10.7 本章小結(jié) 363

參考文獻 365

附錄A 369

A.1 下載代碼庫 369

A.2 安裝Anaconda 369

A.3 設置DL 環(huán)境 370

A.3.1 手動設置你的開發(fā)

環(huán)境370

A.3.2 使用本書的repo 中的

conda 環(huán)境371

A.3.3 保存和加載環(huán)境372

A.4 設置AWS EC2 環(huán)境 372

A.4.1 創(chuàng)建AWS 賬號372

A.4.2 遠程連接到此

實例373

A.4.3 運行Jupyter

Notebook374


本目錄推薦

掃描二維碼
Copyright ? 讀書網(wǎng) m.ranfinancial.com 2005-2020, All Rights Reserved.
鄂ICP備15019699號 鄂公網(wǎng)安備 42010302001612號