注冊 | 登錄讀書好,好讀書,讀好書!
讀書網(wǎng)-DuShu.com
當(dāng)前位置: 首頁出版圖書科學(xué)技術(shù)計算機/網(wǎng)絡(luò)人工智能神經(jīng)網(wǎng)絡(luò)機器翻譯技術(shù)及產(chǎn)業(yè)應(yīng)用

神經(jīng)網(wǎng)絡(luò)機器翻譯技術(shù)及產(chǎn)業(yè)應(yīng)用

神經(jīng)網(wǎng)絡(luò)機器翻譯技術(shù)及產(chǎn)業(yè)應(yīng)用

定 價:¥89.00

作 者: 王海峰,何中軍,吳華
出版社: 機械工業(yè)出版社
叢編項:
標(biāo) 簽: 暫缺

ISBN: 9787111725206 出版時間: 2023-05-01 包裝: 平裝
開本: 16開 頁數(shù): 字?jǐn)?shù):  

內(nèi)容簡介

  《神經(jīng)網(wǎng)絡(luò)機器翻譯技術(shù)及產(chǎn)業(yè)應(yīng)用》由百度首席技術(shù)官王海峰、百度人工智能技術(shù)委員會主席何中軍、百度技術(shù)委員會主席吳華聯(lián)合撰寫,以產(chǎn)業(yè)需求為牽引,介紹了新時期機器翻譯的產(chǎn)業(yè)需求特點、神經(jīng)網(wǎng)絡(luò)機器翻譯的原理與方法、新技術(shù)進展及產(chǎn)業(yè)應(yīng)用。全書兼具理論與實踐,既有對原理與方法的介紹,又有豐富的產(chǎn)業(yè)應(yīng)用案例。《神經(jīng)網(wǎng)絡(luò)機器翻譯技術(shù)及產(chǎn)業(yè)應(yīng)用》共九章: 第1章 緒論,首先闡述了機器翻譯發(fā)展的時代背景和技術(shù)發(fā)展脈絡(luò),從多個角度回顧了機器翻譯的發(fā)展歷程,介紹了當(dāng)前機器翻譯的發(fā)展現(xiàn)狀以及產(chǎn)業(yè)應(yīng)用需求特點和挑戰(zhàn)。 第2章 翻譯語料獲取與譯文質(zhì)量評價,介紹了翻譯語料獲取的相關(guān)技術(shù)以及機器翻譯常用的評價方法,包括人工評價、自動評價、面向產(chǎn)業(yè)應(yīng)用的評價。 第3章 神經(jīng)網(wǎng)絡(luò)機器翻譯,首先介紹了神經(jīng)網(wǎng)絡(luò)機器翻譯的基本原理和模型結(jié)構(gòu),接下來介紹了多種翻譯模型,后介紹了利用開源工具搭建一個神經(jīng)網(wǎng)絡(luò)機器翻譯系統(tǒng)的方法。 第4章 高性能機器翻譯,結(jié)合百度、谷歌等公司的機器翻譯系統(tǒng)實踐,首先介紹了神經(jīng)網(wǎng)絡(luò)機器翻譯的產(chǎn)業(yè)化進程,然后介紹了常用的提升系統(tǒng)性能的方法,后介紹了開源工具平臺中的高性能實現(xiàn)方案。 第5章 多語言機器翻譯,首先介紹了數(shù)據(jù)增強技術(shù)以擴充訓(xùn)練數(shù)據(jù)規(guī)模,然后介紹了基于無監(jiān)督的訓(xùn)練方法以及多種翻譯模型,后介紹了近年來快速發(fā)展的多語言預(yù)訓(xùn)練技術(shù)及其在多語言機器翻譯上的應(yīng)用。本章結(jié)尾還結(jié)合百度、谷歌、臉書等公司的實踐,介紹了大規(guī)模多語言機器翻譯系統(tǒng)。 第6章 領(lǐng)域自適應(yīng),介紹了領(lǐng)域自適應(yīng)技術(shù),通過數(shù)據(jù)增強、優(yōu)化訓(xùn)練等多種手段,使翻譯模型在具體領(lǐng)域上獲得較高的翻譯質(zhì)量。 第7章 機器同聲傳譯,首先介紹了機器同傳的主要挑戰(zhàn)和發(fā)展現(xiàn)狀,然后介紹了目前常用的機器同傳數(shù)據(jù)集和評價方式,后介紹了如何使用開源工具搭建一個機器同傳系統(tǒng)。 第8章 機器翻譯產(chǎn)業(yè)化應(yīng)用,著重介紹了現(xiàn)實生活中機器翻譯豐富的產(chǎn)品形式和廣泛應(yīng)用。 第9章 總結(jié)與展望,對全書進行了總結(jié),并對機器翻譯的未來發(fā)展進行展望。

作者簡介

  王海峰,百度首席技術(shù)官,深度學(xué)習(xí)技術(shù)及應(yīng)用國家工程研究中心主任。國際計算語言學(xué)學(xué)會(ACL)首位華人主席、ACL亞太分會創(chuàng)始主席、ACL Fellow、IEEE Fellow、CAAI Fellow。長期從事機器翻譯、自然語言處理、深度學(xué)習(xí)等人工智能技術(shù)的研究及產(chǎn)業(yè)化工作。以第一完成人身份獲國家技術(shù)發(fā)明二等獎、國家科技進步二等獎、中國專利金獎、北京市科技進步一等獎、中國電子學(xué)會科技進步一等獎,獲光華工程科技獎、全國創(chuàng)新爭先獎、吳文俊人工智能杰出貢獻獎等。 何中軍,百度人工智能技術(shù)委員會主席。長期從事機器翻譯研究與開發(fā),并致力于推動機器翻譯大規(guī)模產(chǎn)業(yè)化應(yīng)用。曾獲國家科技進步二等獎、北京市科技進步一等獎、中國電子學(xué)會科技進步一等獎、中國專利銀獎等多項獎勵。被評為“中國電子學(xué)會優(yōu)秀科技工作者”“北京青年榜樣”等。 吳華,百度技術(shù)委員會主席。長期從事機器翻譯、自然語言處理、機器學(xué)習(xí)等技術(shù)的研究及產(chǎn)業(yè)化工作。曾獲國家技術(shù)發(fā)明二等獎、國家科技進步二等獎、中國專利金獎、北京市科技進步一等獎、中國電子學(xué)會科技進步一等獎。被評為“杰出工程師”“青年北京學(xué)者”等。

圖書目錄

第1章 緒論 1
1.1 機器翻譯發(fā)展簡介 3
1.2 機器翻譯代表性方法 6
1.2.1 基于規(guī)則的機器翻譯 6
1.2.2 統(tǒng)計機器翻譯 8
1.2.3 神經(jīng)網(wǎng)絡(luò)機器翻譯 11
1.3 發(fā)展現(xiàn)狀 13
1.4 產(chǎn)業(yè)應(yīng)用需求特點及挑戰(zhàn) 15
1.4.1 高翻譯質(zhì)量 15
1.4.2 高系統(tǒng)性能 17
1.4.3 多語言翻譯 18
1.4.4 領(lǐng)域自適應(yīng) 19
1.4.5 跨模態(tài)翻譯 20
1.5 本書結(jié)構(gòu) 21
參考文獻 24
第2章 翻譯語料獲取與譯文質(zhì)量評價 27
2.1 概述 28
2.2 機器翻譯語料庫類型 31
2.2.1 雙語語料庫 31
2.2.2 單語語料庫 33
2.3 公開語料庫及系統(tǒng)評測 34
2.3.1 語言數(shù)據(jù)聯(lián)盟與NIST評測 34
2.3.2 歐洲議會語料庫與WMT評測 35
2.3.3 語音翻譯語料庫與IWSLT評測 35
2.3.4 中文語言資源聯(lián)盟與CCMT評測 36
2.4 從互聯(lián)網(wǎng)獲取機器翻譯語料 36
2.4.1 互聯(lián)網(wǎng)雙語語料存在形式 37
2.4.2 互聯(lián)網(wǎng)語料常見問題 39
2.4.3 雙語語料挖掘與加工 40
2.5 機器翻譯質(zhì)量評價 44
2.5.1 人工評價 44
2.5.2 自動評價 46
2.5.3 面向產(chǎn)業(yè)應(yīng)用的評價 53
參考文獻 55
第3章 神經(jīng)網(wǎng)絡(luò)機器翻譯 57
3.1 概述 59
3.2 基于循環(huán)神經(jīng)網(wǎng)絡(luò)的模型 62
3.2.1 基本模型 63
3.2.2 雙向編碼 65
3.2.3 注意力機制 66
3.2.4 長短時記憶與門控循環(huán)單元 68
3.3 基于卷積神經(jīng)網(wǎng)絡(luò)的翻譯模型 71
3.4 全注意力模型 75
3.4.1 基本思想 76
3.4.2 模型結(jié)構(gòu) 78
3.4.3 性能分析 79
3.5 非自回歸翻譯模型 80
3.6 搭建一個神經(jīng)網(wǎng)絡(luò)機器翻譯系統(tǒng) 85
3.6.1 環(huán)境準(zhǔn)備 85
3.6.2 模型訓(xùn)練 86
3.6.3 解碼 88
3.6.4 效果評估 88
參考文獻 89
第4章 高性能機器翻譯 93
4.1 概述 94
4.2 早期產(chǎn)業(yè)化神經(jīng)網(wǎng)絡(luò)機器翻譯系統(tǒng) 96
4.2.1 百度神經(jīng)網(wǎng)絡(luò)機器翻譯系統(tǒng) 97
4.2.2 谷歌神經(jīng)網(wǎng)絡(luò)機器翻譯系統(tǒng) 101
4.3 Transformer模型優(yōu)化 104
4.3.1 高效Transformer 105
4.3.2 針對機器翻譯的優(yōu)化 109
4.4 模型壓縮 112
4.4.1 剪枝 112
4.4.2 量化 115
4.4.3 知識蒸餾 119
4.5 系統(tǒng)部署 121
4.5.1 分布式系統(tǒng)部署 121
4.5.2 智能硬件設(shè)備 122
4.6 開源工具 123
參考文獻 124
第5章 多語言機器翻譯 131
5.1 概述 133
5.2 數(shù)據(jù)增強 134
5.2.1 基于樞軸語言的合成語料庫方法 134
5.2.2 回譯技術(shù) 136
5.3 無監(jiān)督機器翻譯 138
5.3.1 基本原理 139
5.3.2 跨語言向量映射 140
5.3.3 基于去噪自編碼器和回譯技術(shù)的翻譯模型 142
5.3.4 基于對偶學(xué)習(xí)的機器翻譯模型 144
5.4 多語言翻譯統(tǒng)一建模 145
5.4.1 基于多任務(wù)學(xué)習(xí)的翻譯模型 146
5.4.2 基于語言標(biāo)簽的多語言翻譯模型 148
5.5 多語言預(yù)訓(xùn)練 151
5.5.1 預(yù)訓(xùn)練技術(shù)簡介 152
5.5.2 多語言預(yù)訓(xùn)練模型 158
5.5.3 方法比較 163
5.6 多語言機器翻譯系統(tǒng) 165
5.6.1 百度多語言機器翻譯 165
5.6.2 谷歌多語言機器翻譯 166
5.6.3 臉書多語言機器翻譯 168
參考文獻 169
第6章 領(lǐng)域自適應(yīng) 177
6.1 概述 179
6.2 領(lǐng)域數(shù)據(jù)增強 180
6.2.1 領(lǐng)域數(shù)據(jù)聚類 180
6.2.2 領(lǐng)域數(shù)據(jù)篩選 182
6.2.3 領(lǐng)域數(shù)據(jù)擴充 184
6.3 模型訓(xùn)練及優(yōu)化 184
6.3.1 預(yù)訓(xùn)練加微調(diào)技術(shù) 185
6.3.2 領(lǐng)域數(shù)據(jù)加權(quán)訓(xùn)練 186
6.3.3 模型參數(shù)部分調(diào)優(yōu) 187
6.3.4 基于知識蒸餾的領(lǐng)域自適應(yīng) 188
6.3.5 基于課程表學(xué)習(xí)的領(lǐng)域自適應(yīng) 189
6.4 專有名詞和術(shù)語的翻譯 190
6.4.1 前處理技術(shù) 191
6.4.2 后處理技術(shù) 193
6.4.3 融合專名/術(shù)語翻譯的解碼算法 193
6.5 翻譯記憶庫 195
6.5.1 基于記憶庫的數(shù)據(jù)增強 196
6.5.2 融合記憶庫的翻譯模型 197
6.5.3 k-近鄰翻譯模型 198
6.6 面向產(chǎn)業(yè)應(yīng)用的領(lǐng)域自適應(yīng)解決方案 199
參考文獻 200
第7章 機器同聲傳譯 207
7.1 概述 209
7.2 主要挑戰(zhàn) 211
7.2.1 技術(shù)挑戰(zhàn) 211
7.2.2 數(shù)據(jù)挑戰(zhàn) 213
7.2.3 評價挑戰(zhàn) 214
7.3 級聯(lián)同傳模型 216
7.3.1 wait-k模型 216
7.3.2 語義單元驅(qū)動的同傳模型 220
7.3.3 基于強化學(xué)習(xí)的同傳模型 224
7.3.4 基于單調(diào)無限回溯注意力機制的同傳模型 226
7.4 端到端語音翻譯及同傳模型 228
7.4.1 從級聯(lián)模型至端到端模型的過渡 229
7.4.2 基于多任務(wù)學(xué)習(xí)的端到端模型 231
7.4.3 語音識別與翻譯交互解碼模型 234
7.4.4 端到端同傳模型 236
7.5 同傳模型魯棒性 241
7.5.1 融合音節(jié)信息的翻譯模型 241
7.5.2 語音識別糾錯 242
7.5.3 魯棒性翻譯模型 244
7.6 同傳數(shù)據(jù) 245
7.6.1 歐洲語言同傳語料庫 246
7.6.2 日英同傳語料庫 247
7.6.3 中英同傳語料庫 247
7.7 同傳評價 249
7.7.1 基于閱讀理解的翻譯質(zhì)量評價 249
7.7.2 基于平均延遲的同傳時延評價 250
7.7.3 綜合翻譯質(zhì)量和同傳時延的評價 252
7.8 機器同傳系統(tǒng)及產(chǎn)品 252
7.8.1 機器同傳系統(tǒng) 253
7.8.2 機器同傳產(chǎn)品形式 254
7.8.3 機器輔助同傳 254
7.9 搭建一個機器同傳系統(tǒng) 256
7.9.1 數(shù)據(jù)準(zhǔn)備 256
7.9.2 訓(xùn)練 257
7.9.3 解碼 257
參考文獻 258

本目錄推薦

掃描二維碼
Copyright ? 讀書網(wǎng) m.ranfinancial.com 2005-2020, All Rights Reserved.
鄂ICP備15019699號 鄂公網(wǎng)安備 42010302001612號