注冊 | 登錄讀書好,好讀書,讀好書!
讀書網(wǎng)-DuShu.com
當前位置: 首頁出版圖書科學技術(shù)計算機/網(wǎng)絡(luò)人工智能Kaldi 語音識別實戰(zhàn)

Kaldi 語音識別實戰(zhàn)

Kaldi 語音識別實戰(zhàn)

定 價:¥89.00

作 者: 陳果果 等 著
出版社: 電子工業(yè)出版社
叢編項:
標 簽: 暫缺

購買這本書可以去


ISBN: 9787121378744 出版時間: 2020-04-01 包裝: 平裝
開本: 16開 頁數(shù): 336 字數(shù):  

內(nèi)容簡介

  剛剛過去的十年是語音技術(shù)發(fā)展的黃金十年。2010 年前后,從谷歌公司發(fā)布第一個語音搜索應(yīng)用、蘋果公司發(fā)布第一個語音助手 Siri 開始,語音技術(shù)的發(fā)展轉(zhuǎn)瞬進入了快車道。 語音技術(shù)的基礎(chǔ)算法不斷推陳出新,語音任務(wù) Benchmark 持續(xù)被刷新;語音產(chǎn)品的應(yīng)用也從一開始很小眾的語音輸入,逐漸滲透到人們生活的方方面面。 語音產(chǎn)業(yè)飛速發(fā)展,傳統(tǒng)的語音技術(shù)教材已經(jīng)滿足不了該領(lǐng)域從業(yè)者的迫切需求。本書以目前流行的開源語音識別工具 Kaldi 為切入點,深入淺出地講解了語音識別前沿的技術(shù)及它們的實踐應(yīng)用。本書的作者們擁有深厚的學術(shù)積累及豐富的工業(yè)界實戰(zhàn)經(jīng)驗。 本書適合語音技術(shù)相關(guān)研究人員及互聯(lián)網(wǎng)從業(yè)人員學習參考。

作者簡介

  陳果果 清華大學本科學位,約翰霍普金斯大學博士學位,主要研究方向是語音識別及關(guān)鍵詞檢索,師從語音識別開源工具Kaldi主要開發(fā)者Daniel Povey,以及約翰霍普金斯大學語言語音處理中心教授Sanjeev Khudanpur。博士期間為Google開發(fā)了Google的喚醒詞Okay Google的原型,現(xiàn)在已經(jīng)用到數(shù)以億計的安卓設(shè)備及Google智能語音交互設(shè)備上。博士期間同時參與開發(fā)語音識別開源工具Kaldi,以及神經(jīng)網(wǎng)絡(luò)開源工具CNTK。博士畢業(yè)以后聯(lián)合創(chuàng)辦KITT.AI,專注于語音識別及自然語言處理,公司于2017年被百度收購,目前擔任百度智能生活事業(yè)群組(SLG)主任架構(gòu)師。 都家宇 本科畢業(yè)于大連理工大學,后于澳大利亞新南威爾士大學電子信息工程學院學習,取得信號處理專業(yè)碩士學位。研究生期間在導師 Julien Epps 指導下開始進行語音處理、情緒識別方向的研究。畢業(yè)后先后任職于清華大學語音技術(shù)實驗室、百度語音技術(shù)部,以及阿里巴巴iDST、達摩院語音組,從事聲學模型、解碼器、語音喚醒等方面的研發(fā)工作。參與過與 Kaldi 相關(guān)的工作有:Kaldi nnet1神經(jīng)網(wǎng)絡(luò)框架中 lstm 作者;發(fā)起并推動全球大規(guī)模的中文開源數(shù)據(jù)集語音項目AISHELL-1、AISHELL-2,已服務(wù)于清華大學、北京大學、南洋理工大學、哥倫比亞大學等近200所國內(nèi)外高校的科研項目。 那興宇 本科和博士均畢業(yè)于北京理工大學,主要研究方向是語音識別和語音合成。先后任職于中國科學院聲學研究所和阿里巴巴機器人,從事語音識別模型訓練系統(tǒng)和語音交互系統(tǒng)的開發(fā)。目前就職于微軟,擔任資深應(yīng)用科學家,從事語音識別算法和技術(shù)架構(gòu)的開發(fā)及業(yè)務(wù)支持工作。2015年開始在Kaldi開源項目中貢獻代碼,參與了nnet3和chain模型的開發(fā)工作,并維護其中若干示例及OpenSLR的中文語音識別模型。 張俊博 博士畢業(yè)于中國科學院聲學研究所,師從顏永紅研究員。在小米公司從零起主導構(gòu)建了整套語音算法研究框架,包括語音識別、智能設(shè)備語音喚醒、聲紋識別、語音增強、用于語音應(yīng)用的神經(jīng)網(wǎng)絡(luò)部署,均達到了當時的先進水平,并發(fā)表頂會論文若干篇,為后續(xù)的語音研發(fā)工作建立了基礎(chǔ)。近期上線了用于外語學習的發(fā)音質(zhì)量評測引擎,并給Kaldi貢獻了發(fā)音良好度評分的代碼。

圖書目錄

1 語音識別技術(shù)基礎(chǔ) 1
1.1 語音識別極簡史 1
1.2 語音識別系統(tǒng)架構(gòu) 6
1.3 一些其他細節(jié) 11
2 Kaldi概要介紹 15
2.1 發(fā)展歷史 15
2.2 設(shè)計思想 18
2.3 安裝 20
2.4 一個簡單的示例 26
2.5 示例介紹 34
3 數(shù)據(jù)整理 44
3.1 數(shù)據(jù)分集 44
3.2 數(shù)據(jù)預處理 49
3.3 輸入和輸出機制 56
3.4 常用數(shù)據(jù)表單與處理腳本 69
3.5 語言模型相關(guān)文件 79
4 經(jīng)典聲學建模技術(shù) 94
4.1 特征提取 95
4.2 單音子模型的訓練 107
4.3 三音子模型訓練 128
4.4 特征變換技術(shù) 139
4.5 區(qū)分性訓練 143
5 構(gòu)圖和解碼 147
5.1 N元文法語言模型 148
5.2 加權(quán)有限狀態(tài)轉(zhuǎn)錄機 151
5.3 用WFST表示語言模型 156
5.4 狀態(tài)圖的構(gòu)建 158
5.5 圖的結(jié)構(gòu)優(yōu)化 170
5.6 最終狀態(tài)圖的生成 174
5.7 基于令牌傳遞的維特比搜索 176
5.8 SimpleDecoder源碼分析 178
5.9 Kaldi 解碼器家族 187
5.10 帶詞網(wǎng)格生成的解碼 189
5.11 用語言模型重打分提升識別率 192
6 深度學習聲學建模技術(shù) 195
6.1 基于神經(jīng)網(wǎng)絡(luò)的聲學模型 195
6.2 神經(jīng)網(wǎng)絡(luò)在Kaldi中的實現(xiàn) 200
6.3 神經(jīng)網(wǎng)絡(luò)模型訓練 214
6.4 神經(jīng)網(wǎng)絡(luò)的區(qū)分性訓練 228
6.5 與其他深度學習框架的結(jié)合 242
7 關(guān)鍵詞搜索與語音喚醒 245
7.1 關(guān)鍵詞搜索技術(shù)介紹 245
7.2 語音檢索 247
7.3 語音喚醒 263
……

本目錄推薦

掃描二維碼
Copyright ? 讀書網(wǎng) m.ranfinancial.com 2005-2020, All Rights Reserved.
鄂ICP備15019699號 鄂公網(wǎng)安備 42010302001612號