Kaldi 語(yǔ)音識(shí)別實(shí)戰(zhàn)

定　價(jià)：￥89.00

作　者：	陳果果等著
出版社：	電子工業(yè)出版社
叢編項(xiàng)：
標(biāo)　簽：	暫缺

購(gòu)買這本書可以去

京東 (￥89.00)

ISBN：	9787121378744	出版時(shí)間：	2020-04-01	包裝：	平裝
開本：	16開	頁(yè)數(shù)：	336	字?jǐn)?shù)：

內(nèi)容簡(jiǎn)介

　　剛剛過(guò)去的十年是語(yǔ)音技術(shù)發(fā)展的黃金十年。2010 年前后，從谷歌公司發(fā)布第一個(gè)語(yǔ)音搜索應(yīng)用、蘋果公司發(fā)布第一個(gè)語(yǔ)音助手 Siri 開始，語(yǔ)音技術(shù)的發(fā)展轉(zhuǎn)瞬進(jìn)入了快車道。語(yǔ)音技術(shù)的基礎(chǔ)算法不斷推陳出新，語(yǔ)音任務(wù) Benchmark 持續(xù)被刷新；語(yǔ)音產(chǎn)品的應(yīng)用也從一開始很小眾的語(yǔ)音輸入，逐漸滲透到人們生活的方方面面。語(yǔ)音產(chǎn)業(yè)飛速發(fā)展，傳統(tǒng)的語(yǔ)音技術(shù)教材已經(jīng)滿足不了該領(lǐng)域從業(yè)者的迫切需求。本書以目前流行的開源語(yǔ)音識(shí)別工具 Kaldi 為切入點(diǎn)，深入淺出地講解了語(yǔ)音識(shí)別前沿的技術(shù)及它們的實(shí)踐應(yīng)用。本書的作者們擁有深厚的學(xué)術(shù)積累及豐富的工業(yè)界實(shí)戰(zhàn)經(jīng)驗(yàn)。本書適合語(yǔ)音技術(shù)相關(guān)研究人員及互聯(lián)網(wǎng)從業(yè)人員學(xué)習(xí)參考。

作者簡(jiǎn)介

　　陳果果清華大學(xué)本科學(xué)位，約翰霍普金斯大學(xué)博士學(xué)位，主要研究方向是語(yǔ)音識(shí)別及關(guān)鍵詞檢索，師從語(yǔ)音識(shí)別開源工具Kaldi主要開發(fā)者Daniel Povey，以及約翰霍普金斯大學(xué)語(yǔ)言語(yǔ)音處理中心教授Sanjeev Khudanpur。博士期間為Google開發(fā)了Google的喚醒詞Okay Google的原型，現(xiàn)在已經(jīng)用到數(shù)以億計(jì)的安卓設(shè)備及Google智能語(yǔ)音交互設(shè)備上。博士期間同時(shí)參與開發(fā)語(yǔ)音識(shí)別開源工具Kaldi，以及神經(jīng)網(wǎng)絡(luò)開源工具CNTK。博士畢業(yè)以后聯(lián)合創(chuàng)辦KITT.AI，專注于語(yǔ)音識(shí)別及自然語(yǔ)言處理，公司于2017年被百度收購(gòu)，目前擔(dān)任百度智能生活事業(yè)群組（SLG）主任架構(gòu)師。都家宇本科畢業(yè)于大連理工大學(xué)，后于澳大利亞新南威爾士大學(xué)電子信息工程學(xué)院學(xué)習(xí)，取得信號(hào)處理專業(yè)碩士學(xué)位。研究生期間在導(dǎo)師 Julien Epps 指導(dǎo)下開始進(jìn)行語(yǔ)音處理、情緒識(shí)別方向的研究。畢業(yè)后先后任職于清華大學(xué)語(yǔ)音技術(shù)實(shí)驗(yàn)室、百度語(yǔ)音技術(shù)部，以及阿里巴巴iDST、達(dá)摩院語(yǔ)音組，從事聲學(xué)模型、解碼器、語(yǔ)音喚醒等方面的研發(fā)工作。參與過(guò)與 Kaldi 相關(guān)的工作有：Kaldi nnet1神經(jīng)網(wǎng)絡(luò)框架中 lstm 作者；發(fā)起并推動(dòng)全球大規(guī)模的中文開源數(shù)據(jù)集語(yǔ)音項(xiàng)目AISHELL-1、AISHELL-2，已服務(wù)于清華大學(xué)、北京大學(xué)、南洋理工大學(xué)、哥倫比亞大學(xué)等近200所國(guó)內(nèi)外高校的科研項(xiàng)目。那興宇本科和博士均畢業(yè)于北京理工大學(xué)，主要研究方向是語(yǔ)音識(shí)別和語(yǔ)音合成。先后任職于中國(guó)科學(xué)院聲學(xué)研究所和阿里巴巴機(jī)器人，從事語(yǔ)音識(shí)別模型訓(xùn)練系統(tǒng)和語(yǔ)音交互系統(tǒng)的開發(fā)。目前就職于微軟，擔(dān)任資深應(yīng)用科學(xué)家，從事語(yǔ)音識(shí)別算法和技術(shù)架構(gòu)的開發(fā)及業(yè)務(wù)支持工作。2015年開始在Kaldi開源項(xiàng)目中貢獻(xiàn)代碼，參與了nnet3和chain模型的開發(fā)工作，并維護(hù)其中若干示例及OpenSLR的中文語(yǔ)音識(shí)別模型。張俊博博士畢業(yè)于中國(guó)科學(xué)院聲學(xué)研究所，師從顏永紅研究員。在小米公司從零起主導(dǎo)構(gòu)建了整套語(yǔ)音算法研究框架，包括語(yǔ)音識(shí)別、智能設(shè)備語(yǔ)音喚醒、聲紋識(shí)別、語(yǔ)音增強(qiáng)、用于語(yǔ)音應(yīng)用的神經(jīng)網(wǎng)絡(luò)部署，均達(dá)到了當(dāng)時(shí)的先進(jìn)水平，并發(fā)表頂會(huì)論文若干篇，為后續(xù)的語(yǔ)音研發(fā)工作建立了基礎(chǔ)。近期上線了用于外語(yǔ)學(xué)習(xí)的發(fā)音質(zhì)量評(píng)測(cè)引擎，并給Kaldi貢獻(xiàn)了發(fā)音良好度評(píng)分的代碼。

圖書目錄

1 語(yǔ)音識(shí)別技術(shù)基礎(chǔ) 1
1.1 語(yǔ)音識(shí)別極簡(jiǎn)史 1
1.2 語(yǔ)音識(shí)別系統(tǒng)架構(gòu) 6
1.3 一些其他細(xì)節(jié) 11
2 Kaldi概要介紹 15
2.1 發(fā)展歷史 15
2.2 設(shè)計(jì)思想 18
2.3 安裝 20
2.4 一個(gè)簡(jiǎn)單的示例 26
2.5 示例介紹 34
3 數(shù)據(jù)整理 44
3.1 數(shù)據(jù)分集 44
3.2 數(shù)據(jù)預(yù)處理 49
3.3 輸入和輸出機(jī)制 56
3.4 常用數(shù)據(jù)表單與處理腳本 69
3.5 語(yǔ)言模型相關(guān)文件 79
4 經(jīng)典聲學(xué)建模技術(shù) 94
4.1 特征提取 95
4.2 單音子模型的訓(xùn)練 107
4.3 三音子模型訓(xùn)練 128
4.4 特征變換技術(shù) 139
4.5 區(qū)分性訓(xùn)練 143
5 構(gòu)圖和解碼 147
5.1 N元文法語(yǔ)言模型 148
5.2 加權(quán)有限狀態(tài)轉(zhuǎn)錄機(jī) 151
5.3 用WFST表示語(yǔ)言模型 156
5.4 狀態(tài)圖的構(gòu)建 158
5.5 圖的結(jié)構(gòu)優(yōu)化 170
5.6 最終狀態(tài)圖的生成 174
5.7 基于令牌傳遞的維特比搜索 176
5.8 SimpleDecoder源碼分析 178
5.9 Kaldi 解碼器家族 187
5.10 帶詞網(wǎng)格生成的解碼 189
5.11 用語(yǔ)言模型重打分提升識(shí)別率 192
6 深度學(xué)習(xí)聲學(xué)建模技術(shù) 195
6.1 基于神經(jīng)網(wǎng)絡(luò)的聲學(xué)模型 195
6.2 神經(jīng)網(wǎng)絡(luò)在Kaldi中的實(shí)現(xiàn) 200
6.3 神經(jīng)網(wǎng)絡(luò)模型訓(xùn)練 214
6.4 神經(jīng)網(wǎng)絡(luò)的區(qū)分性訓(xùn)練 228
6.5 與其他深度學(xué)習(xí)框架的結(jié)合 242
7 關(guān)鍵詞搜索與語(yǔ)音喚醒 245
7.1 關(guān)鍵詞搜索技術(shù)介紹 245
7.2 語(yǔ)音檢索 247
7.3 語(yǔ)音喚醒 263
……