注冊 | 登錄讀書好,好讀書,讀好書!
讀書網(wǎng)-DuShu.com
當前位置: 首頁出版圖書科學技術計算機/網(wǎng)絡人工智能解析深度學習:語音識別實踐

解析深度學習:語音識別實踐

解析深度學習:語音識別實踐

定 價:¥79.00

作 者: 俞棟
出版社: 電子工業(yè)出版社
叢編項:
標 簽: 計算機/網(wǎng)絡 計算機理論

ISBN: 9787121287961 出版時間: 2016-06-01 包裝: 平塑
開本: 頁數(shù): 336 字數(shù):  

內容簡介

  本書是首部介紹語音識別中深度學習技術細節(jié)的專著。全書首先概要介紹了傳統(tǒng)語音識別理論和經(jīng)典的深度神經(jīng)網(wǎng)絡核心算法。接著全面而深入地介紹了深度學習在語音識別中的應用,包括“深度神經(jīng)網(wǎng)絡-隱馬爾可夫混合模型”的訓練和優(yōu)化,特征表示學習、模型融合、自適應,以及以循環(huán)神經(jīng)網(wǎng)絡為代表的若干先進深度學習技術。本書適合有一定機器學習或語音識別基礎的學生、研究者或從業(yè)者閱讀,所有的算法及技術細節(jié)都提供了詳盡的參考文獻,給出了深度學習在語音識別中應用的全景。

作者簡介

  俞棟博士和鄧力博士正是語音識別這一突破的最早也是最主要的推動者和實踐者。他們與 Geoffrey Hinton 合作,最早將深度學習引入語音識別并取得初步成功,后續(xù)又連續(xù)突破一系列技術瓶頸,在大尺度連續(xù)語音識別系統(tǒng)上取得了研究界和工業(yè)界廣泛認可的突破。在幾乎所有的語音識別應用深度學習的核心領域上都有這兩位學者的影響。

圖書目錄

作者及譯者簡介  譯者序  序  前言  術語縮寫  符號  1簡介  1.1自動語音識別:更好的溝通之橋  1.1.1人類之間的交流  1.1.2人機交流  1.2語音識別系統(tǒng)的基本結構  1.3全書結構  1.3.1第一部分:傳統(tǒng)聲學模型  1.3.2第二部分:深度神經(jīng)網(wǎng)絡  1.3.3第三部分:語音識別中的DNN—HMM混合系統(tǒng)  1.3.4第四部分:深度神經(jīng)網(wǎng)絡中的特征表示學習  1.3.5第五部分:高級的深度模型  第一部分傳統(tǒng)聲學模型  2混合高斯模型  2.1隨機變量  2.2高斯分布和混合高斯隨機變量  2.3參數(shù)估計  2.4采用混合高斯分布對語音特征建模  3隱馬爾可夫模型及其變體  3.1介紹  3.2馬爾可夫鏈  3.3序列與模型  3.3.1隱馬爾可夫模型的性質  3.3.2隱馬爾可夫模型的仿真  3.3.3隱馬爾可夫模型似然度的計算  3.3.4計算似然度的高效算法  3.3.5前向與后向遞歸式的證明  3.4期望最大化算法及其在學習HMM參數(shù)中的應用  3.4.1期望最大化算法介紹  3.4.2使用EM算法來學習HMM參數(shù)—Baum—Welch算法  3.5用于解碼HMM狀態(tài)序列的維特比算法  3.5.1動態(tài)規(guī)劃和維特比算法  3.5.2用于解碼HMM狀態(tài)的動態(tài)規(guī)劃算法  3.6隱馬爾可夫模型和生成語音識別模型的變體  3.6.1用于語音識別的GMM—HMM模型  3.6.2基于軌跡和隱藏動態(tài)模型的語音建模和識別  3.6.3使用生成模型HMM及其變體解決語音識別問題  第二部分深度神經(jīng)網(wǎng)絡  4深度神經(jīng)網(wǎng)絡  4.1深度神經(jīng)網(wǎng)絡框架  4.2使用誤差反向傳播來進行參數(shù)訓練  4.2.1訓練準則  4.2.2訓練算法  4.3實際應用  4.3.1數(shù)據(jù)預處理  4.3.2模型初始化  4.3.3權重衰減  4.3.4丟棄法  4.3.5批量塊大小的選擇  4.3.6取樣隨機化  4.3.7慣性系數(shù)  4.3.8學習率和停止準則  4.3.9網(wǎng)絡結構  4.3.10可復現(xiàn)性與可重啟性  5高級模型初始化技術  5.1受限玻爾茲曼機  5.1.1受限玻爾茲曼機的屬性  5.1.2受限玻爾茲曼機參數(shù)學習  5.2深度置信網(wǎng)絡預訓練  5.3降噪自動編碼器預訓練  5.4鑒別性預訓練  5.5混合預訓練  5.6采用丟棄手法的預訓練  第三部分語音識別中的深度神經(jīng)網(wǎng)絡一隱馬爾可夫混合模型  6深度神經(jīng)網(wǎng)絡—隱馬爾可夫模型混合系統(tǒng)  6.1DNN—HMM混合系統(tǒng)  6.1.1結構  6.1.2用CD—DNN—HMM解碼  6.1.3CD—DNN—HMM訓練過程  6.1.4上下文窗口的影響  6.2CD—DNN—HMM的關鍵模塊及分析  6.2.1進行比較和分析的數(shù)據(jù)集和實驗  6.2.2對單音素或者三音素的狀態(tài)進行建模  6.2.3越深越好  6.2.4利用相鄰的語音幀  6.2.5預訓練  6.2.6訓練數(shù)據(jù)的標注質量的影響  6.2.7調整轉移概率  6.3基于KL距離的隱馬爾可夫模型  7訓練和解碼的加速  7.1訓練加速  7.1.1使用多GPU流水線反向傳播  7.1.2異步隨機梯度下降  7.1.3增廣拉格朗日算法及乘子方向交替算法  7.1.4減小模型規(guī)模  7.1.5其他方法  7.2加速解碼  7.2.1并行計算  7.2.2稀疏網(wǎng)絡  7.2.3低秩近似  7.2.4用大尺寸DNN訓練小尺寸DNN  7.2.5多幀DNN  8深度神經(jīng)網(wǎng)絡序列鑒別性訓練  8.1序列鑒別性訓練準則  8.1.1最大相互信息  8.1.2增強型MMI  8.1.3最小音素錯誤/狀態(tài)級最小貝葉斯風險  8.1.4統(tǒng)一的公式  8.2具體實現(xiàn)中的考量  8.2.1詞圖產(chǎn)生  8.2.2詞圖補償  8.2.3幀平滑  8.2.4學習率調整  8.2.5訓練準則選擇  8.2.6其他考量  8.3噪聲對比估計  8.3.1將概率密度估計問題轉換為二分類設計問題  8.3.2拓展到未歸一化的模型  8.3.3在深度學習網(wǎng)絡訓練中應用噪聲對比估計算法  第四部分深度神經(jīng)網(wǎng)絡中的特征表示學習  9深度神經(jīng)網(wǎng)絡中的特征表示學習  9.1特征和分類器的聯(lián)合學習  9.2特征層級  9.3使用隨意輸入特征的靈活性  9.4特征的魯棒性  9.4.1對說話人變化的魯棒性  9.4.2對環(huán)境變化的魯棒性  9.5對環(huán)境的魯棒性  9.5.1對噪聲的魯棒性  9.5.2對語速變化的魯棒性  9.6缺乏嚴重信號失真情況下的推廣能力  10深度神經(jīng)網(wǎng)絡和混合高斯模型的融合  10.1在GMM—HMM系統(tǒng)中使用由DNN衍生的特征  10.1.1使用Tandem和瓶頸特征的GMM—HMM模型  10.1.2DNN—HMM混合系統(tǒng)與采用深度特征的GMM—HMM系統(tǒng)的比較  10.2識別結果融合技術  10.2.1識別錯誤票選降低技術(ROVER)  10.2.2分段條件隨機場(SCARF)  10.2.3最小貝葉斯風險詞圖融合  10.3幀級別的聲學分數(shù)融合  10.4多流語音識別  11深度神經(jīng)網(wǎng)絡的自適應技術  11.1深度神經(jīng)網(wǎng)絡中的自適應問題  11.2線性變換  11.2.1線性輸入網(wǎng)絡  11.2.2線性輸出網(wǎng)絡  11.3線性隱層網(wǎng)絡  11.4保守訓練  11.4.1L2正則項  11.4.2KL距離正則項  11.4.3減少每個說話人的模型開銷  11.5子空間方法  11.5.1通過主成分分析構建子空間  11.5.2噪聲感知、說話人感知及設備感知訓練  11.5.3張量  11.6DNN說話人自適應的效果  11.6.1基于KL距離的正則化方法  11.6.2說話人感知訓練  ……  第五部分先進的深度學習模型  參考文獻

本目錄推薦

掃描二維碼
Copyright ? 讀書網(wǎng) m.ranfinancial.com 2005-2020, All Rights Reserved.
鄂ICP備15019699號 鄂公網(wǎng)安備 42010302001612號