注冊(cè) | 登錄讀書(shū)好,好讀書(shū),讀好書(shū)!
讀書(shū)網(wǎng)-DuShu.com
當(dāng)前位置: 首頁(yè)出版圖書(shū)科學(xué)技術(shù)計(jì)算機(jī)/網(wǎng)絡(luò)人工智能深度實(shí)踐OCR:基于深度學(xué)習(xí)的文字識(shí)別

深度實(shí)踐OCR:基于深度學(xué)習(xí)的文字識(shí)別

深度實(shí)踐OCR:基于深度學(xué)習(xí)的文字識(shí)別

定 價(jià):¥89.00

作 者: 劉樹(shù)春,賀盼,馬建奇,王佳軍 著
出版社: 機(jī)械工業(yè)出版社
叢編項(xiàng): 智能系統(tǒng)與技術(shù)叢書(shū)
標(biāo) 簽: 暫缺

購(gòu)買(mǎi)這本書(shū)可以去


ISBN: 9787111654049 出版時(shí)間: 2020-06-01 包裝: 平裝
開(kāi)本: 16開(kāi) 頁(yè)數(shù): 字?jǐn)?shù):  

內(nèi)容簡(jiǎn)介

  這是一部融合了企業(yè)界先進(jìn)工程實(shí)踐經(jīng)驗(yàn)和學(xué)術(shù)界前沿技術(shù)和思想的ORC著作。 本書(shū)由阿里巴巴本地生活研究院算法團(tuán)隊(duì)技術(shù)專(zhuān)家領(lǐng)銜,從組件、算法、實(shí)現(xiàn)、工程應(yīng)用等維度系統(tǒng)講解基于深度學(xué)習(xí)的OCR技術(shù)的原理和落地。書(shū)中一步步剖析了算法背后的數(shù)學(xué)原理,提供大量簡(jiǎn)潔的代碼實(shí)現(xiàn),幫助讀者從零基礎(chǔ)開(kāi)始構(gòu)建OCR算法。 全書(shū)共9章: 第1章從宏觀角度介紹了ORC技術(shù)的發(fā)展歷程、概念和產(chǎn)業(yè)應(yīng)用; 第2章講解了OCR的圖像預(yù)處理方法; 第3~4章介紹了傳統(tǒng)機(jī)器學(xué)習(xí)方法和深度學(xué)習(xí)的相關(guān)基礎(chǔ); 第5章講解了基于傳統(tǒng)方法和深度學(xué)習(xí)方法的OCR的數(shù)據(jù)生成; 第6章講解了與OCR相關(guān)的一些高級(jí)深度學(xué)習(xí)方法,方便讀者理解后續(xù)的檢測(cè)和識(shí)別部分; 第7章講解了文字的檢測(cè)技術(shù),從通用的目標(biāo)檢測(cè)到文字的檢測(cè),一步步加深讀者對(duì)文字檢測(cè)問(wèn)題的認(rèn)識(shí); 第8章討論了文字識(shí)別的相關(guān)技術(shù),定位到文字的位置之后,需要對(duì)文字的內(nèi)容進(jìn)行進(jìn)一步的解析; 第9章介紹了一些OCR后處理的方法。

作者簡(jiǎn)介

  劉樹(shù)春 阿里巴巴本地生活研究院算法專(zhuān)家,前復(fù)旦七牛云聯(lián)合實(shí)驗(yàn)室OCR算法負(fù)責(zé)人,在OCR相關(guān)技術(shù)的落地和實(shí)現(xiàn)方面有深入的研究和豐富的實(shí)踐經(jīng)驗(yàn),在菜單識(shí)別、車(chē)牌檢測(cè)識(shí)別、卡證識(shí)別、商業(yè)廣告文字檢測(cè)和識(shí)別、票據(jù)類(lèi)識(shí)別等應(yīng)用場(chǎng)景中積累了豐富的經(jīng)驗(yàn)。曾經(jīng)組隊(duì)參加COCO競(jìng)賽、ICDAR刷榜等活動(dòng),并發(fā)表多篇論文。賀盼 佛羅里達(dá)大學(xué)在讀博士,擔(dān)任 CVPR、ICCV、ECCV等10多家國(guó)際頂會(huì)審稿人或程序委員,在場(chǎng)景文本領(lǐng)域發(fā)表過(guò)多篇國(guó)際會(huì)議論文 (DTRN、CTPN、SSTD等)。曾經(jīng)在中科院先進(jìn)技術(shù)研究院、港中文、曠世美國(guó)研究院等做過(guò)相關(guān)研究工作,對(duì)場(chǎng)景文本有深刻的認(rèn)識(shí),并且對(duì)場(chǎng)景文本學(xué)術(shù)前沿有很強(qiáng)的感知力。馬建奇 著名的RRPN算法的作者,發(fā)表過(guò)多篇國(guó)際會(huì)議論文,曾經(jīng)在曠世研究院做過(guò)檢測(cè)相關(guān)的工作,在上海高等研究院做過(guò)文字檢測(cè)相關(guān)的工作,曾經(jīng)組隊(duì)參加過(guò)ICDAR 17 MLT比賽,獲得前三名。曾獲Facebook研究實(shí)習(xí)機(jī)會(huì)。目前即將開(kāi)始修讀博士學(xué)位,正在做文字識(shí)別相關(guān)的工作,對(duì)于OCR的問(wèn)題有獨(dú)到的見(jiàn)解。王佳軍 阿里巴巴本地生活研究院高級(jí)算法專(zhuān)家,負(fù)責(zé)本地生活研究院圖像算法團(tuán)隊(duì)的管理、研發(fā)等工作,曾經(jīng)在滴滴研究院做相關(guān)算法的研究。業(yè)余時(shí)間擔(dān)任深度學(xué)習(xí)框架MXNet的技術(shù)專(zhuān)家,對(duì)實(shí)際算法的落地優(yōu)化等有非常深入的耕耘,具有很強(qiáng)的OCR相關(guān)項(xiàng)目的落地能力。謝雨飛 趣頭條算法工程師,曾在七牛云做OCR、NLP相關(guān)算法的研究工作,發(fā)表過(guò)多篇國(guó)際論文。陳明曦 紐約大學(xué)碩士研究生,曾在七牛云從事OCR相關(guān)工作,發(fā)表相關(guān)論文數(shù)篇。

圖書(shū)目錄

推薦序
前言
第1章 緒論 1
1.1 人工智能大潮中的OCR發(fā)展史 1
1.1.1 傳統(tǒng)OCR方法一般流程 3
1.1.2 基于深度學(xué)習(xí)OCR方法一般流程 5
1.2 文字檢測(cè) 6
1.3 文字識(shí)別 8
1.4 產(chǎn)業(yè)應(yīng)用現(xiàn)狀 10
1.5 本章小結(jié) 11
1.6 參考文獻(xiàn) 11
第2章 圖像預(yù)處理 13
2.1 二值化 13
2.1.1 全局閾值方法 13
2.1.2 局部閾值方法 17
2.1.3 基于深度學(xué)習(xí)的方法 20
2.1.4 其他方法 22
2.2 平滑去噪 26
2.2.1 空間濾波 26
2.2.2 小波閾值去噪 28
2.2.3 非局部方法 29
2.2.4 基于神經(jīng)網(wǎng)絡(luò)的方法 33
2.3 傾斜角檢測(cè)和校正 35
2.3.1 霍夫變換 36
2.3.2 Radon 變換 38
2.3.3 基于 PCA 的方法 38
2.4 實(shí)戰(zhàn) 39
2.5 參考文獻(xiàn) 43
第3章 傳統(tǒng)機(jī)器學(xué)習(xí)方法緒論 45
3.1 特征提取方法 45
3.1.1 基于結(jié)構(gòu)形態(tài)的特征提取 45
3.1.2 基于幾何分布的特征提取 61
3.2 分類(lèi)方法模型 63
3.2.1 支持向量機(jī) 63
3.2.2 K近鄰算法 65
3.2.3 多層感知器 70
3.3 實(shí)戰(zhàn):身份證號(hào)碼的識(shí)別 71
3.3.1 核心代碼 71
3.3.2 測(cè)試結(jié)果 78
3.4 本章小結(jié) 79
3.5 參考文獻(xiàn) 79
第4章 深度學(xué)習(xí)基礎(chǔ)知識(shí) 80
4.1 單層神經(jīng)網(wǎng)絡(luò) 80
4.1.1 神經(jīng)元 80
4.1.2 感知機(jī) 81
4.2 雙層神經(jīng)網(wǎng)絡(luò) 82
4.2.1 雙層神經(jīng)網(wǎng)絡(luò)簡(jiǎn)介 82
4.2.2 常用的激活函數(shù) 83
4.2.3 反向傳播算法 86
4.3 深度學(xué)習(xí) 87
4.3.1 卷積神經(jīng)網(wǎng)絡(luò) 88
4.3.2 常用優(yōu)化算法 90
4.4 訓(xùn)練網(wǎng)絡(luò)技巧 92
4.4.1 權(quán)值初始化 92
4.4.2 L1/L2正則化 93
4.4.3 Dropout 94
4.5 實(shí)戰(zhàn) 95
4.6 參考文獻(xiàn) 97
第5章 數(shù)據(jù)生成 99
5.1 背景介紹 99
5.2 傳統(tǒng)單字OCR數(shù)據(jù)生成 100
5.3 基于深度學(xué)習(xí)的OCR數(shù)據(jù)生成 101
5.3.1 文字檢測(cè)數(shù)據(jù)的生成 101
5.3.2 檢測(cè)圖片生成 103
5.3.3 其他方法 112
5.3.4 識(shí)別數(shù)據(jù)生成 113
5.4 通過(guò)GAN的技術(shù)生成數(shù)據(jù) 114
5.4.1 GAN背景介紹 114
5.4.2 GAN的原理 116
5.4.3 GAN的變種 117
5.5 圖像增廣 123
5.5.1 常用的圖像增強(qiáng)方法 123
5.5.2 深度學(xué)習(xí)方法 126
5.6 常用的開(kāi)源數(shù)據(jù)集 128
5.7 ICDAR的任務(wù)和數(shù)據(jù)集 131
5.8 本章小結(jié) 138
5.9 參考文獻(xiàn) 138
第6章 深度學(xué)習(xí)高級(jí)方法 140
6.1 圖像分類(lèi)模型 140
6.1.1 LeNet5 140
6.1.2 AlexNet 142
6.1.3 VGGNet 143
6.1.4 GoogLeNet 144
6.1.5 ResNet 147
6.1.6 DenseNet 151
6.1.7 SENet 153
6.1.8 輕量化網(wǎng)絡(luò) 154
6.2 循環(huán)神經(jīng)網(wǎng)絡(luò) 154
6.2.1 RNN網(wǎng)絡(luò) 154
6.2.2 GRU 156
6.2.3 GRU的實(shí)現(xiàn) 158
6.2.4 LSTM網(wǎng)絡(luò) 160
6.3 Seq2Seq 163
6.4 CTC Loss 164
6.4.1 算法詳解 166
6.4.2 前向傳播 168
6.4.3 后向傳播 173
6.4.4 前向/后向算法 173
6.4.5 CTC算法特性 174
6.4.6 代碼解析 175
6.5 Attention 178
6.6 本章小結(jié) 181
6.7 參考文獻(xiàn) 182
第7章 文字檢測(cè) 183
7.1 研究意義 183
7.2 目標(biāo)檢測(cè)方法 185
7.2.1 目標(biāo)檢測(cè)相關(guān)術(shù)語(yǔ) 186
7.2.2 傳統(tǒng)檢測(cè)方法 189
7.2.3 Two-stage 方法 195
7.2.4 One-stage 方法 210
7.3 文本檢測(cè)方法 217
7.3.1 傳統(tǒng)文本檢測(cè)方法 217
7.3.2 基于深度學(xué)習(xí)的文本檢測(cè)方法 222
7.4 本章小結(jié) 228
7.5 參考文獻(xiàn) 228
第8章 字符識(shí)別 232
8.1 任務(wù)概覽 232
8.2 數(shù)據(jù)集說(shuō)明 233
8.2.1 數(shù)據(jù)集意義 233
8.2.2 常見(jiàn)識(shí)別數(shù)據(jù)集介紹 234
8.3 評(píng)測(cè)指標(biāo) 238
8.3.1 編輯距離 239
8.3.2 歸一化編輯距離 239
8.3.3 字符準(zhǔn)確度 239
8.3.4 詞準(zhǔn)確率 239
8.3.5 語(yǔ)境相關(guān)的評(píng)測(cè)方式 239
8.4 主流算法介紹 240
8.4.1 傳統(tǒng)光學(xué)方法 240
8.4.2 完全基于深度學(xué)習(xí)的方法 244
8.5 CRNN模型實(shí)戰(zhàn) 274
8.5.1 簡(jiǎn)介 274
8.5.2 運(yùn)行環(huán)境 274
8.5.3 測(cè)試部分講解 274
8.5.4 測(cè)試運(yùn)行結(jié)果 279
8.5.5 訓(xùn)練部分 279
8.5.6 用ICDAR2013數(shù)據(jù)集訓(xùn)練CRNN模型 282
8.6 本章小結(jié) 284
8.7 參考文獻(xiàn) 285
第9章 OCR后處理方法 288
9.1 文本糾錯(cuò) 288
9.1.1 BK-tree 289
9.1.2 基于語(yǔ)言模型的中文糾錯(cuò) 293
9.2 文本結(jié)構(gòu)化 297
9.2.1 模板匹配 298
9.2.2 文本分類(lèi) 300
9.3 本章小結(jié) 304
9.4 參考文獻(xiàn) 304
第10章 版面分析 306
10.1 版面分析詳解 306
10.2 復(fù)雜版面識(shí)別 309
10.3 文檔恢復(fù) 310
10.4 本章小結(jié) 311
10.5 參考文獻(xiàn) 311

本目錄推薦

掃描二維碼
Copyright ? 讀書(shū)網(wǎng) m.ranfinancial.com 2005-2020, All Rights Reserved.
鄂ICP備15019699號(hào) 鄂公網(wǎng)安備 42010302001612號(hào)