18年的緣份,妙不可言
回想起來,我與語音合成這個研究方向已經(jīng)結(jié)緣十多年了。這緣分源自于碩士入學(xué)之初的一次選擇。
當時我從西北工業(yè)大學(xué)保送到哈爾濱船舶工程學(xué)院讀研究生,信號處理專業(yè)有兩個方向供我們選擇,圖象處理和語音處理,當時圖象處理很熱,好幾個同學(xué)想選,我就決定不湊熱鬧了,選了語音處理。后來發(fā)現(xiàn)這個方向還蠻有意思的,就開始投入其中。等兩年后報考中科院聲學(xué)所博士時,我依然申請了語音合成方向。就這樣,我的碩士、博士論文工作奠定了我之后長達十多年的研究興趣。
大家都說愛一行,干一行。從碩士階段開始算起,到后來留在聲學(xué)所工作、直到在微軟亞洲研究院工作到2007年,我已經(jīng)在這個領(lǐng)域奮戰(zhàn)了近18個年頭了。我一直覺得自己是個很專注的人,但是仍不敢想象這種執(zhí)著竟堅持了這么久。
語音合成是一個交叉學(xué)科,既要懂得語音信號處理,還要掌握語言內(nèi)部的音韻、語法等系統(tǒng)的知識,并且需要能將這些知識很好的融合到語音合成系統(tǒng)之中。此外,還需要了解心理學(xué)實驗方法,通過各種實驗來幫助我們更好地理解人的聽覺特點,從而更好的滿足用戶的需求。正是因為它所要求的相關(guān)學(xué)科的知識面比較廣,才吸引我投入了這么多時間在上面。
而研究院,也是從事這樣專注研究的一個好地方,它為每個研究員提供了很好的平臺與環(huán)境,還有做事情的自由,每個人有很大的自由決定想做什么,不做什么。而且,只要要求合理,研究院總是會保障你有足夠的資源做自己的研究。我曾經(jīng)很奢侈地擁有過一個專門的錄音室,在那里,我們進行了各式各樣的錄音實驗,這也是木蘭會有很好的音質(zhì)的一個重要保障。
期盼再做一次“媽媽”
到2007年的時候,我已在TTS領(lǐng)域耕耘了十多年了。雖然,頗有收獲,但內(nèi)心深處逐漸萌生去打探一下TTS之外的領(lǐng)域的念頭。這時,我對大規(guī)模數(shù)據(jù)加工處理產(chǎn)生了興趣,這其中麻省理工學(xué)院的Victor Zue教授給了我很大的啟示。
有一次,他來研究院訪問時時,對我們提過這樣一個問題:如果將你在做研究中所使用的數(shù)據(jù)量,乘上一百或者一千倍,同樣的問題還能用同樣的方法來解決嗎?
是呀,隨著互聯(lián)網(wǎng)技術(shù)的發(fā)展,我們可以接觸、收集的數(shù)據(jù)量迅速增長,面對這樣大規(guī)模增長的數(shù)據(jù),我們能做什么呢?應(yīng)該怎么做呢?如何對大規(guī)模數(shù)據(jù)進行挖掘、分析和再利用成為了一個極富挑戰(zhàn)的研究難題,對我也產(chǎn)生了強烈的吸引力。于是,就在2007年,我做了一個重要決定,擴展一下自己的研究領(lǐng)域,從語音組轉(zhuǎn)到了以數(shù)據(jù)為中心的計算組,開始了一段新的研究歷程。
將來會怎樣,我無法預(yù)期,但我充滿信心的期待著下一個碩果累累的十年,希望自己能孕育出另一個木蘭,再做一次媽媽。
作者介紹:
初敏,2000年3月加入微軟亞洲研究院,從事語音分析與合成、韻律模型和文語轉(zhuǎn)換等方面的研究,她主持研究的木蘭中英文雙語文語轉(zhuǎn)換技術(shù)成功的應(yīng)用于微軟的新一代操作系統(tǒng)Vista之中。2007年開始,初敏致力于將各種機器學(xué)習(xí)和數(shù)據(jù)挖掘技術(shù)用于大規(guī)模數(shù)據(jù)的分布式計算。工作之余,她最大興趣是游山玩水,希望有生之年能走遍祖國的山山水水和世界的角角落落。