解析深度學習：語音識別實踐

定　價：￥79.00

作　者：	俞棟
出版社：	電子工業(yè)出版社
叢編項：
標　簽：	計算機/網(wǎng)絡(luò) 計算機理論

購買這本書可以去

ISBN：	9787121287961	出版時間：	2016-06-01	包裝：	平塑
開本：		頁數(shù)：	336	字數(shù)：

內(nèi)容簡介

　　本書是首部介紹語音識別中深度學習技術(shù)細節(jié)的專著。全書首先概要介紹了傳統(tǒng)語音識別理論和經(jīng)典的深度神經(jīng)網(wǎng)絡(luò)核心算法。接著全面而深入地介紹了深度學習在語音識別中的應(yīng)用，包括“深度神經(jīng)網(wǎng)絡(luò)-隱馬爾可夫混合模型”的訓練和優(yōu)化，特征表示學習、模型融合、自適應(yīng)，以及以循環(huán)神經(jīng)網(wǎng)絡(luò)為代表的若干先進深度學習技術(shù)。本書適合有一定機器學習或語音識別基礎(chǔ)的學生、研究者或從業(yè)者閱讀，所有的算法及技術(shù)細節(jié)都提供了詳盡的參考文獻，給出了深度學習在語音識別中應(yīng)用的全景。

作者簡介

　　俞棟博士和鄧力博士正是語音識別這一突破的最早也是最主要的推動者和實踐者。他們與 Geoffrey Hinton 合作，最早將深度學習引入語音識別并取得初步成功，后續(xù)又連續(xù)突破一系列技術(shù)瓶頸，在大尺度連續(xù)語音識別系統(tǒng)上取得了研究界和工業(yè)界廣泛認可的突破。在幾乎所有的語音識別應(yīng)用深度學習的核心領(lǐng)域上都有這兩位學者的影響。

圖書目錄

作者及譯者簡介譯者序序前言術(shù)語縮寫符號 1簡介 1.1自動語音識別：更好的溝通之橋 1.1.1人類之間的交流 1.1.2人機交流 1.2語音識別系統(tǒng)的基本結(jié)構(gòu) 1.3全書結(jié)構(gòu) 1.3.1第一部分：傳統(tǒng)聲學模型 1.3.2第二部分：深度神經(jīng)網(wǎng)絡(luò) 1.3.3第三部分：語音識別中的DNN—HMM混合系統(tǒng) 1.3.4第四部分：深度神經(jīng)網(wǎng)絡(luò)中的特征表示學習 1.3.5第五部分：高級的深度模型第一部分傳統(tǒng)聲學模型 2混合高斯模型 2.1隨機變量 2.2高斯分布和混合高斯隨機變量 2.3參數(shù)估計 2.4采用混合高斯分布對語音特征建模 3隱馬爾可夫模型及其變體 3.1介紹 3.2馬爾可夫鏈 3.3序列與模型 3.3.1隱馬爾可夫模型的性質(zhì) 3.3.2隱馬爾可夫模型的仿真 3.3.3隱馬爾可夫模型似然度的計算 3.3.4計算似然度的高效算法 3.3.5前向與后向遞歸式的證明 3.4期望最大化算法及其在學習HMM參數(shù)中的應(yīng)用 3.4.1期望最大化算法介紹 3.4.2使用EM算法來學習HMM參數(shù)—Baum—Welch算法 3.5用于解碼HMM狀態(tài)序列的維特比算法 3.5.1動態(tài)規(guī)劃和維特比算法 3.5.2用于解碼HMM狀態(tài)的動態(tài)規(guī)劃算法 3.6隱馬爾可夫模型和生成語音識別模型的變體 3.6.1用于語音識別的GMM—HMM模型 3.6.2基于軌跡和隱藏動態(tài)模型的語音建模和識別 3.6.3使用生成模型HMM及其變體解決語音識別問題第二部分深度神經(jīng)網(wǎng)絡(luò) 4深度神經(jīng)網(wǎng)絡(luò) 4.1深度神經(jīng)網(wǎng)絡(luò)框架 4.2使用誤差反向傳播來進行參數(shù)訓練 4.2.1訓練準則 4.2.2訓練算法 4.3實際應(yīng)用 4.3.1數(shù)據(jù)預處理 4.3.2模型初始化 4.3.3權(quán)重衰減 4.3.4丟棄法 4.3.5批量塊大小的選擇 4.3.6取樣隨機化 4.3.7慣性系數(shù) 4.3.8學習率和停止準則 4.3.9網(wǎng)絡(luò)結(jié)構(gòu) 4.3.10可復現(xiàn)性與可重啟性 5高級模型初始化技術(shù) 5.1受限玻爾茲曼機 5.1.1受限玻爾茲曼機的屬性 5.1.2受限玻爾茲曼機參數(shù)學習 5.2深度置信網(wǎng)絡(luò)預訓練 5.3降噪自動編碼器預訓練 5.4鑒別性預訓練 5.5混合預訓練 5.6采用丟棄手法的預訓練第三部分語音識別中的深度神經(jīng)網(wǎng)絡(luò)一隱馬爾可夫混合模型 6深度神經(jīng)網(wǎng)絡(luò)—隱馬爾可夫模型混合系統(tǒng) 6.1DNN—HMM混合系統(tǒng) 6.1.1結(jié)構(gòu) 6.1.2用CD—DNN—HMM解碼 6.1.3CD—DNN—HMM訓練過程 6.1.4上下文窗口的影響 6.2CD—DNN—HMM的關(guān)鍵模塊及分析 6.2.1進行比較和分析的數(shù)據(jù)集和實驗 6.2.2對單音素或者三音素的狀態(tài)進行建模 6.2.3越深越好 6.2.4利用相鄰的語音幀 6.2.5預訓練 6.2.6訓練數(shù)據(jù)的標注質(zhì)量的影響 6.2.7調(diào)整轉(zhuǎn)移概率 6.3基于KL距離的隱馬爾可夫模型 7訓練和解碼的加速 7.1訓練加速 7.1.1使用多GPU流水線反向傳播 7.1.2異步隨機梯度下降 7.1.3增廣拉格朗日算法及乘子方向交替算法 7.1.4減小模型規(guī)模 7.1.5其他方法 7.2加速解碼 7.2.1并行計算 7.2.2稀疏網(wǎng)絡(luò) 7.2.3低秩近似 7.2.4用大尺寸DNN訓練小尺寸DNN 7.2.5多幀DNN 8深度神經(jīng)網(wǎng)絡(luò)序列鑒別性訓練 8.1序列鑒別性訓練準則 8.1.1最大相互信息 8.1.2增強型MMI 8.1.3最小音素錯誤／狀態(tài)級最小貝葉斯風險 8.1.4統(tǒng)一的公式 8.2具體實現(xiàn)中的考量 8.2.1詞圖產(chǎn)生 8.2.2詞圖補償 8.2.3幀平滑 8.2.4學習率調(diào)整 8.2.5訓練準則選擇 8.2.6其他考量 8.3噪聲對比估計 8.3.1將概率密度估計問題轉(zhuǎn)換為二分類設(shè)計問題 8.3.2拓展到未歸一化的模型 8.3.3在深度學習網(wǎng)絡(luò)訓練中應(yīng)用噪聲對比估計算法第四部分深度神經(jīng)網(wǎng)絡(luò)中的特征表示學習 9深度神經(jīng)網(wǎng)絡(luò)中的特征表示學習 9.1特征和分類器的聯(lián)合學習 9.2特征層級 9.3使用隨意輸入特征的靈活性 9.4特征的魯棒性 9.4.1對說話人變化的魯棒性 9.4.2對環(huán)境變化的魯棒性 9.5對環(huán)境的魯棒性 9.5.1對噪聲的魯棒性 9.5.2對語速變化的魯棒性 9.6缺乏嚴重信號失真情況下的推廣能力 10深度神經(jīng)網(wǎng)絡(luò)和混合高斯模型的融合 10.1在GMM—HMM系統(tǒng)中使用由DNN衍生的特征 10.1.1使用Tandem和瓶頸特征的GMM—HMM模型 10.1.2DNN—HMM混合系統(tǒng)與采用深度特征的GMM—HMM系統(tǒng)的比較 10.2識別結(jié)果融合技術(shù) 10.2.1識別錯誤票選降低技術(shù)（ROVER） 10.2.2分段條件隨機場（SCARF） 10.2.3最小貝葉斯風險詞圖融合 10.3幀級別的聲學分數(shù)融合 10.4多流語音識別 11深度神經(jīng)網(wǎng)絡(luò)的自適應(yīng)技術(shù) 11.1深度神經(jīng)網(wǎng)絡(luò)中的自適應(yīng)問題 11.2線性變換 11.2.1線性輸入網(wǎng)絡(luò) 11.2.2線性輸出網(wǎng)絡(luò) 11.3線性隱層網(wǎng)絡(luò) 11.4保守訓練 11.4.1L2正則項 11.4.2KL距離正則項 11.4.3減少每個說話人的模型開銷 11.5子空間方法 11.5.1通過主成分分析構(gòu)建子空間 11.5.2噪聲感知、說話人感知及設(shè)備感知訓練 11.5.3張量 11.6DNN說話人自適應(yīng)的效果 11.6.1基于KL距離的正則化方法 11.6.2說話人感知訓練 …… 第五部分先進的深度學習模型參考文獻