“木蘭”媽媽
作者:初敏
“木蘭”是我加入微軟后帶領(lǐng)幾位年輕同事研發(fā)出來的雙語文語轉(zhuǎn)換系統(tǒng)(text-to-speech,簡稱TTS)。她不僅能將中文、英文文稿流暢的朗讀出來,還能很好的處理混雜著很多英文單詞、短語和句子的文稿。在研究院成立五周年的慶?;顒?dòng)中,木蘭名列‘十大’成果之一。我常常引以為豪。木蘭凝聚了我多年的心血,就像我的另一個(gè)孩子,在我的孕育、撫養(yǎng)下,從無到有,從小到大,逐步完善,改進(jìn)。最終成功的‘嫁’到微軟最新操作系統(tǒng)Vista中,并且由此孵化出微軟唯一的一個(gè)TTS產(chǎn)品部門。以前,一個(gè)在總部產(chǎn)品部門的同事Scott Meredith,也是TTS的專家,在向別人介紹我的時(shí)候,總忘不了說一句“She is the mother of Mulan TTS system”。我總是欣然接受“木蘭媽媽”這個(gè)稱呼。
“木蘭”是這樣誕生的
我是2000年初加入研究院的,是研究院的第一位女性研究員,也是研究院第一個(gè)從事TTS研究的人。我?guī)ьI(lǐng)的這個(gè)TTS小組在很長時(shí)間都是微軟內(nèi)部唯一的一個(gè)從事語音合成技術(shù)研發(fā)工作的團(tuán)隊(duì)。憑借著在中文語言文化上的優(yōu)勢,我們差不多花了一年左右時(shí)間專門從事中文語音合成的研究,做出了一個(gè)合成效果非常好的原型系統(tǒng)。之后的一、兩年,我們把研究重點(diǎn)轉(zhuǎn)移到了英語語音合成上面,也取得了相當(dāng)好的效果。
接下來我們選擇的方向就是解決中英文混讀的問題。隨著互聯(lián)網(wǎng)的發(fā)展,中西方文化的交融,越來越多的中文文章中會(huì)雜糅有英文內(nèi)容,可能是某產(chǎn)品的品牌型號(hào),也可能是一首著名歌曲。遇到這樣的文章,傳統(tǒng)文語轉(zhuǎn)換系統(tǒng)就撓頭了。最典型的解決方案就是在后臺(tái)架起兩個(gè)系統(tǒng),一個(gè)專門處理中文,一個(gè)專門處理英文。遇到中英文混雜的句子,就將中文部分分割出來送給中文系統(tǒng),英文部分則送給英文系統(tǒng),然后將兩者的輸出合并起來返回給用戶。這樣做的最大缺陷在于分開處理的兩種語言缺乏統(tǒng)一的語調(diào)、語氣,甚至連聲音本身都差別很大。這樣的結(jié)果聽上去時(shí)斷時(shí)續(xù),極為不連貫??啥龋苈牰┖妥匀欢龋犉饋硎娣┒急容^差。我們當(dāng)時(shí)花了很多精力去物色一個(gè)中英文都比較強(qiáng)的播音員,為我們的語音系統(tǒng)錄音,這樣就可以保證語音數(shù)據(jù)庫中的雙語聲音是一致的。另外我們還將中英文的處理能力融合在一個(gè)系統(tǒng)中,有統(tǒng)一的韻律控制,這樣生成的語句即便包含兩種語言,也能有統(tǒng)一的語調(diào)和節(jié)律,就像一個(gè)能講雙語的人講出來的話。這個(gè)雙語語音合成系統(tǒng)在可懂度與自然度上都取得了較好的效果。我們將這個(gè)系統(tǒng)命名為木蘭。木蘭就是這樣誕生的。
(TTS系統(tǒng)中的木蘭形象)
之后的一段時(shí)間里,我們致力于不斷提高木蘭的聲音質(zhì)量,并從應(yīng)用角度探索如何將語音合成技術(shù)方便人們的日常生活, 例如語音聊天室(一方輸入文字,另一方聽到聲音)、動(dòng)畫配音(為孩子DIY動(dòng)畫故事)、個(gè)性化聲音加工等等。在我們完成了一個(gè)又一個(gè)有趣的研究項(xiàng)目的過程中,木蘭長大了,成熟了。
木蘭“嫁”入Vista
在2003年之際,微軟公司在著力開發(fā)新一代操作系統(tǒng)Vista,當(dāng)時(shí)總部產(chǎn)品部門基本準(zhǔn)備購買其他公司的一套現(xiàn)成的語音合成軟件。在他們對(duì)木蘭有所了解后,最終決定采用我們的技術(shù)成果。這對(duì)TTS研究團(tuán)隊(duì)無疑是一件歡欣鼓舞的事情,因?yàn)槟馨炎约旱难芯砍晒D(zhuǎn)化到服務(wù)于用戶的產(chǎn)品中是我們的夢想??墒牵虑檫\(yùn)作起來遠(yuǎn)沒有想象的那么簡單。所有的開發(fā)和單元測試工作都必須在北京做。而我們這個(gè)以研究為主的團(tuán)隊(duì),寫程序不是我們最擅長的能力,而且勢必占用我們很多做研究的時(shí)間。但是,為了一個(gè)共同的目標(biāo)——把自己的研究成果做進(jìn)微軟產(chǎn)品,我們團(tuán)隊(duì)的每一個(gè)人都非常投入地做這個(gè)項(xiàng)目。
剛開始,我們只有5個(gè)人,三個(gè)來自TTS組,兩個(gè)來自技術(shù)轉(zhuǎn)化組。大家分擔(dān)著產(chǎn)品開發(fā)環(huán)節(jié)中的各個(gè)角色,PM、SDE、SEET ,每天都超負(fù)荷運(yùn)轉(zhuǎn)著。正巧,項(xiàng)目啟動(dòng)后不久,微軟亞洲工程院宣布成立,它成立的使命是把研究院的最新技術(shù)孵化進(jìn)產(chǎn)品中去,TTS項(xiàng)目也就成了工程院的第一批項(xiàng)目之一。
我們從總部爭取到了更多的人員指標(biāo),TTS開發(fā)組逐漸擴(kuò)大了,有了專職PM、Developer和Tester。當(dāng)然,任務(wù)也更多了,不光要把TTS做進(jìn)操作系統(tǒng),還要做到所有需要TTS技術(shù)的產(chǎn)品中去。不光要做中文、英文,還要做西班牙語、日語、法語等二十多種語言。大概在2004年8月份左右,在工程院中,我們已經(jīng)孵化出一支完整的TTS開發(fā)團(tuán)隊(duì),而我們幾個(gè)仍想致力于研究工作的人逐漸抽身,開始考慮下一步的研究方向。而那時(shí)候,為Vista做的工作已經(jīng)完成了80%以上。
當(dāng)我的木蘭最終“嫁”了出去后,有段時(shí)間我產(chǎn)生了一種空落感,茫然若失。TTS作為一個(gè)產(chǎn)品化了的技術(shù)算是大功告成了,那么接下來應(yīng)該怎么走,還能做些什么?在這些問題上我們的團(tuán)隊(duì)做了很多思考。在隨后的兩年中,我們主要在語音合成技術(shù)的應(yīng)用化、個(gè)性化層面進(jìn)行大膽的探索,通過把十余種較有代表性的地方方言運(yùn)用到語音的表達(dá)中,試圖使對(duì)話效果更富趣味性、擬人性和娛樂性。在這個(gè)創(chuàng)意的基礎(chǔ)上,我們做出了一些原型系統(tǒng),效果還很不錯(cuò)。這些工作都是木蘭的延伸。