注冊 | 登錄讀書好,好讀書,讀好書!
讀書網(wǎng)-DuShu.com
當前位置: 首頁出版圖書科學技術(shù)計算機/網(wǎng)絡(luò)人工智能實時語音處理實踐指南

實時語音處理實踐指南

實時語音處理實踐指南

定 價:¥99.00

作 者: 葛世超 等 著
出版社: 電子工業(yè)出版社
叢編項:
標 簽: 暫缺

購買這本書可以去


ISBN: 9787121387593 出版時間: 2020-04-01 包裝: 平裝
開本: 16開 頁數(shù): 352 字數(shù):  

內(nèi)容簡介

  本書主要介紹基于互聯(lián)網(wǎng)場景的交互式實時語音處理流程,內(nèi)容涉及智能語音助手、智能音箱、音/視頻會議等,具體包括實時語音信號處理、數(shù)字音效、網(wǎng)絡(luò)傳輸編/解碼和語音喚醒識別四部分。在闡述各部分內(nèi)容時,本書從基本概念和原理入手,將理論和實踐相結(jié)合,并細致分析了極具商業(yè)價值的實例,以幫助讀者了解相關(guān)算法在工程上是如何實現(xiàn)的。另外,為便于有興趣的讀者快速進行算法驗證并將其改進和應(yīng)用到實際的項目中,作者也開源了書中算法的源碼。 對于語音技術(shù)零基礎(chǔ)的讀者,建議按照本書的編排順序閱讀;本書也適合有一定語音理論基礎(chǔ)的高等院校相關(guān)專業(yè)本科生和研究生;對從事語音相關(guān)產(chǎn)品的非技術(shù)人員來說,可從本書了解語音處理的主要內(nèi)容和技術(shù)難點,對從事語音工程開發(fā)的技術(shù)人員來說,本書開源了一些極具商業(yè)價值的源碼工程,具有較高的參考價值。

作者簡介

  葛世超,碩士,畢業(yè)于西安電子科技大學雷達國防重點實驗室,先后任職于阿里巴巴、rokid和Zoom,從事語音算法工作。 呂強,學士,吉林大學通信工程專業(yè)畢業(yè),原微鯨電視系統(tǒng)軟件音頻專家。 錢思沖,武漢理工大學博士,2016年至2018年在rokid從事麥克風陣列信號研究,目前主要研究語音信號盲源分離。 張博倫,碩士研究生,畢業(yè)于中國海洋大學海底科學與探測技術(shù)教育部重點實驗室。畢業(yè)后先后從事水聲、音頻信號處理等工作。 張碩,畢業(yè)于西安電子科技大學和法國高等電力學院,先后任職于諾基亞和Rokid,從事語音算法相關(guān)工作。

圖書目錄

緒論1
第1章 信號處理 7
1.1 數(shù)字和模擬頻率 7
1.2 離散傅里葉變換8
1.2.1 實數(shù)DFT 9
1.2.2 復(fù)數(shù)DFT 10
1.2.3 負頻分量 10
1.2.4 DFT變換性質(zhì) 10
1.3 FFT 11
1.3.1 FFT 結(jié)果舉例 12
1.3.2 實信號FFT 13
1.3.3 短時傅里葉變換 14
1.3.4 STFT語音窗函數(shù)選擇 14
1.4 重疊相加法和重疊保留法 16
1.4.1 OLA 17
1.4.2 OLS 19
1.5 加權(quán)重疊相加法 21
1.5.1 WOLA 計算過程 22
1.5.2 WOLA 窗函數(shù)選擇 22
1.6 濾波器組 23
1.7 語音預(yù)加重 27
1.8 高斯分布 27
1.8.1 單高斯分布 27
1.8.2 多維高斯分布 29
1.9 HMM模型 31
1.10 卡爾曼濾波 32
第2章 發(fā)音機理和器件 34
2.1 語音的產(chǎn)生和接收 34
2.1.1 語音產(chǎn)生機理 34
2.1.2 發(fā)聲模型 36
2.1.3 發(fā)音單位 36
2.1.4 發(fā)音分類 37
2.1.5 聲音接收 37
2.1.6 聲音傳播 38
2.2 揚聲器 38
2.2.1 電學性能 38
2.2.2 聲學性能 39
2.2.3 底噪 40
2.2.4 頻響特性 41
2.2.5 THD+N POUT 41
2.2.6 電壓(功率)和失真 42
2.3 麥克風 42
2.3.1 麥克風性能指標 42
2.3.2 麥克風的選擇 43
2.4 結(jié)構(gòu)設(shè)計 45
2.5 音頻設(shè)備 46
2.6 聲學測試 49
第3章 語音端點檢測 59
3.1 特征選取 59
3.2 判決準則 61
3.2.1 門限 61
3.3 VAD 實例 63
3.4 語音/非語音幀的初始參數(shù) 75
第4章 單通道降噪 79
4.1 譜減法 79
4.2 維納濾波 84
4.3 子空間降噪 86
4.4 WebRTC 單通道降噪實現(xiàn) 87
4.5 深度學習降噪 101
第5章 聲學回聲消除 106
5.1 回聲消除原理 106
5.2 自適應(yīng)濾波器 108
5.3 WebRTC 回聲消除算法 113
5.4 Speex 回聲消除算法 128
第6章 聲源定位 147
6.1 GCC算法 147
6.2 SRP-PHAT算法 149
6.3 MUSIC算法 150
6.4 TOPS 算法 152
6.5 FRIDA算法 154
6.6 后處理抗噪 155
第7章 波束形成技術(shù) 162
7.1 麥克風陣列 163
7.2 常見波束形成方法 168
7.3 WebRTC 波束形成實例 174
7.4 后置濾波(Post-filtering) 187
第8章 盲源分離 196
8.1 基本概念及數(shù)學預(yù)備知識 196
8.2 盲語音分離預(yù)處理——PCA 199
8.3 頻域獨立成分分析法——FDICA 200
8.4 后置濾波處理 205
8.5 GSC 與ICA聯(lián)合估計 209
第9章 音效處理 214
9.1 聲道的分類 214
9.2 后端音效處理 217
第10章 語音編/解碼 227
10.1 LPC 編碼 230
10.2 SILK編/解碼 231
10.3 opus 編/解碼概覽 239
10.4 語音質(zhì)量評估 247
第11章 語音網(wǎng)絡(luò)傳輸 251
11.1 擁塞控制 252
11.2 NetEQ 266
第12章 語音喚醒 278
12.1 語音喚醒技術(shù)簡介 278
12.2 特征提取 279
12.3 模型結(jié)構(gòu) 284
12.4 計算加速 292
第13章 語音識別 301
13.1 語音特征提取 303
13.2 聲學模型 306
13.3 語言模型 310
13.4 YES 和NO識別實例 312
13.5 Kaldi 中文語音識別 321
13.6 DeepSpeech 語音識別 324
附錄A 本書涉及的專業(yè)術(shù)語 331

本目錄推薦

掃描二維碼
Copyright ? 讀書網(wǎng) m.ranfinancial.com 2005-2020, All Rights Reserved.
鄂ICP備15019699號 鄂公網(wǎng)安備 42010302001612號