讓語(yǔ)音技術(shù)改變?nèi)藗兊纳?/p>
作者:余鵬
在MSRA的辦公區(qū)墻上,貼著比爾?蓋茨曾經(jīng)說(shuō)過(guò)的一段話:“每天清晨當(dāng)你醒來(lái)的時(shí)候,都會(huì)為技術(shù)進(jìn)步給人類生活帶來(lái)的發(fā)展和改進(jìn)而激動(dòng)不已。”這句話也詮釋了MSRA這10年來(lái)成就的動(dòng)力源泉――用技術(shù)改變?nèi)藗兊纳睢?/p>
我在清華大學(xué)的博士課題是語(yǔ)音識(shí)別,畢業(yè)后進(jìn)入MSRA的語(yǔ)音組。語(yǔ)音技術(shù)經(jīng)過(guò)多年的發(fā)展取得了長(zhǎng)足的進(jìn)步,但是在應(yīng)用領(lǐng)域,卻面臨著一個(gè)尷尬的局面:一些在實(shí)驗(yàn)室的理想環(huán)境下表現(xiàn)完美的技術(shù),很難找到現(xiàn)實(shí)的應(yīng)用;而在現(xiàn)實(shí)生活中,目前語(yǔ)音技術(shù)的穩(wěn)健性和適應(yīng)性卻又達(dá)不到應(yīng)用場(chǎng)景的需求標(biāo)準(zhǔn)。
如何找到連接技術(shù)和應(yīng)用的橋梁,是我們語(yǔ)音組的研究員考慮最多的問(wèn)題。
此路不通?換條道!
2003年春天,正是北京SARS肆虐的日子。也就是在那時(shí)候,我們開(kāi)始了語(yǔ)音識(shí)別用于音頻檢索的研究。我們選取的第一個(gè)應(yīng)用是搜索個(gè)人的語(yǔ)音郵件,針對(duì)的場(chǎng)景是10小時(shí)以內(nèi)的語(yǔ)音數(shù)據(jù)。
最開(kāi)始,我們直接用語(yǔ)音識(shí)別系統(tǒng)將語(yǔ)音郵件轉(zhuǎn)換成文字來(lái)搜索。但很快發(fā)現(xiàn)即使最好的語(yǔ)音識(shí)別系統(tǒng),針對(duì)語(yǔ)音郵件的準(zhǔn)確性也僅僅只有70%左右,而這種情況下,搜索的準(zhǔn)確性無(wú)法令人滿意。為了解決這一問(wèn)題,我們提出了基于詞格的音頻檢索方法,簡(jiǎn)單的說(shuō),就是除了在語(yǔ)音識(shí)別的首選結(jié)果上搜索外,加入多候選識(shí)別結(jié)果的信息。比如,語(yǔ)音識(shí)別的第一候選是“研究院”,但同時(shí)給出許多次優(yōu)候選,如“研究員”。通過(guò)索引這些多候選結(jié)果,搜索的準(zhǔn)確性有了大幅度的提高。
但我們很快發(fā)現(xiàn)了另一個(gè)問(wèn)題,常用的語(yǔ)音識(shí)別系統(tǒng)依賴于一個(gè)事先選取的詞典,而不在詞表中的詞是不可能被識(shí)別出來(lái)的,這在語(yǔ)音識(shí)別中稱之為“集外詞”問(wèn)題。對(duì)于音頻檢索,這個(gè)問(wèn)題變得尤為嚴(yán)重,因?yàn)楹芏嗉庠~都是可能被搜索到的關(guān)鍵詞。針對(duì)這一問(wèn)題,我們采用了基于音素的語(yǔ)音識(shí)別系統(tǒng),將音頻內(nèi)容和用戶關(guān)鍵詞都分拆成音素來(lái)匹配,取得了很好的效果。
在那一年的Director Review和第二年的TechFest,我們演示了這一技術(shù),得到了廣泛的好評(píng)。
跨越“100小時(shí)”這座大山
在我們演示了基于音素的音頻檢索技術(shù)之后,得到最重要的一條反饋是,這一技術(shù)要做到實(shí)用,必須解決數(shù)據(jù)集的尺度問(wèn)題。在我們的解決方案中,搜索時(shí)間和數(shù)據(jù)集尺度是成正比的,這稱之為“線型搜索”。在數(shù)據(jù)集小于10小時(shí)的情況下,搜索的時(shí)間在2秒以內(nèi)。但當(dāng)數(shù)據(jù)集到了100小時(shí)的時(shí)候,搜索時(shí)間就不可接受了。而100小時(shí),是一個(gè)實(shí)際應(yīng)用的基本要求。
其實(shí)在文本搜索領(lǐng)域,通過(guò)基于詞的倒排索引,海量數(shù)據(jù)集的搜索早就不成為難題。但在我們的系統(tǒng)中,因?yàn)椴捎靡羲貫榛締卧沟煤?jiǎn)單的倒排毫無(wú)用處:基本上一個(gè)音素會(huì)出現(xiàn)在所有的文件中。100小時(shí)難題成為橫亙?cè)谖覀兠媲暗囊蛔y以跨越的大山。
經(jīng)過(guò)幾次的推倒重來(lái),反復(fù)的爭(zhēng)辯討論和大量的實(shí)驗(yàn)驗(yàn)證,最后我們提出了索引可變音素串的方法,即通過(guò)倒排較長(zhǎng)的音素串實(shí)現(xiàn)加速,同時(shí)借鑒n元文法的backoff方法解決集外詞問(wèn)題,成功地解決了音素一級(jí)的索引問(wèn)題。當(dāng)最后的演示系統(tǒng)成功地在1秒以內(nèi)搜索100小時(shí)數(shù)據(jù)集的時(shí)候,我們都情不自禁地歡呼起來(lái)。
(余鵬 (中) 與項(xiàng)目同事在一起展示語(yǔ)音搜索所用的道具)
出租車上寫出來(lái)的程序
在微軟做研究有一個(gè)別的地方無(wú)法比擬的優(yōu)勢(shì),那就是,你會(huì)有機(jī)會(huì)把自己的想法和技術(shù)應(yīng)用到微軟的軟件產(chǎn)品中去,真正做到改變?nèi)藗兊纳睢T谘菔玖宋覀冏钚碌囊纛l檢索技術(shù)之后不久,Microsoft Office ? OneNote產(chǎn)品組找到我們,表示出應(yīng)用這一技術(shù)的興趣。
但是我們很快發(fā)現(xiàn)要把技術(shù)產(chǎn)品化并不那么簡(jiǎn)單。由于OneNote產(chǎn)品組自己的產(chǎn)品進(jìn)度非常緊,他們沒(méi)有足夠的人力資源來(lái)把這一技術(shù)付諸實(shí)現(xiàn)。如果我們不想放棄將這一技術(shù)付諸產(chǎn)品的機(jī)會(huì)的話,我們必須親自參與具體的產(chǎn)品開(kāi)發(fā),而那意味著我們需要付出大量的努力和時(shí)間在一個(gè)作為研究員來(lái)說(shuō)并不熟悉的領(lǐng)域。
我們最終選擇了全力以赴地將技術(shù)實(shí)現(xiàn)到產(chǎn)品中,因?yàn)槲覀兌枷嘈?,沒(méi)有實(shí)現(xiàn)的技術(shù),終究只是技術(shù)。那段時(shí)間,是我進(jìn)入MSRA后最為忙碌的日子。除了參與產(chǎn)品進(jìn)度,我們還有其它的研究課題,加班是經(jīng)常的事情。舉一個(gè)例子可以看出當(dāng)時(shí)的緊張程度,因?yàn)檐浖鏅?quán)問(wèn)題,我們需要重寫音素識(shí)別的解碼器,而這一工作是我的同事賽德用了一個(gè)月的時(shí)間,每天坐出租上班的路上用筆記本寫的。后來(lái)我常常和他開(kāi)玩笑說(shuō)那是他的“Taxi Project”。
我們最后提交給OneNote產(chǎn)品組的代碼整整有10萬(wàn)行。由于我們的努力,音頻檢索成功地隨著OneNote軟件于2006年底發(fā)布。那一年的Director Review,我們驕傲的宣布了這一消息,得到了院長(zhǎng)們由衷的掌聲。
邁出“技術(shù)改變生活”的第一步
OneNote的音頻檢索只是我們邁出的第一步,隨后,我們的研究方向轉(zhuǎn)向數(shù)據(jù)量更大,內(nèi)容更復(fù)雜,需求更多樣化的互聯(lián)網(wǎng)音頻/視頻搜索和企業(yè)級(jí)音頻/視頻的搜索。微軟龐大的產(chǎn)品線也讓我們找到了更多連接語(yǔ)音技術(shù)和用戶需求的渠道。
當(dāng)我們致力于用語(yǔ)音技術(shù)改變?nèi)藗兩钸@一目標(biāo)的同時(shí),我們發(fā)現(xiàn)這也同樣指引我們做出更多更有用的研究。在我們摸索技術(shù)實(shí)用化的過(guò)程中所解決的很多問(wèn)題,對(duì)于學(xué)術(shù)領(lǐng)域也帶來(lái)非常大的影響。從2003年開(kāi)始,我們發(fā)表的一系列關(guān)于音頻檢索的文章,現(xiàn)在正引起越來(lái)越多的關(guān)注。
在MSRA,“用語(yǔ)音技術(shù)改變?nèi)藗兊纳睢?,這一當(dāng)初我選擇語(yǔ)音識(shí)別作為我的專業(yè)課題時(shí)的夢(mèng)想,正在一點(diǎn)點(diǎn)地成為現(xiàn)實(shí)。
作者介紹:
余鵬,浙江紹興人,2002年畢業(yè)于清華大學(xué),獲信號(hào)于信息處理博士學(xué)位。之前于上海交通大學(xué)獲通訊工程學(xué)士學(xué)位。現(xiàn)為微軟亞洲研究院語(yǔ)音組研究員,研究方向包括信號(hào)處理,語(yǔ)音識(shí)別,音頻搜索,信息檢索等。最大的業(yè)余愛(ài)好是籃球,在球場(chǎng)上是一名出色的投手。