如果你所從事的是將全世界的信息組織起來的職業(yè),那么,在某個領域?qū)W到的東西總會在另一個領域里得到實際應用。如果說谷歌的統(tǒng)計機器翻譯項目得益于谷歌旗下其他部門的工作,那么它也以各種方式回報了這些部門的恩惠。研發(fā)單一語言的統(tǒng)計技術模型轉(zhuǎn)過來為研發(fā)任一語言的發(fā)音監(jiān)測軟件提供了便利(這個軟件的監(jiān)測范圍包括了哪怕是新近出現(xiàn)的名人姓名的發(fā)音),它無需經(jīng)過人工編輯之手,也無需借助詞典,只要給“算法”輸入足夠分量的公開發(fā)表的文章,就絕對可以讓它掌握正確的發(fā)音。能使它做到這一步的技術保障就是對出現(xiàn)頻率的統(tǒng)計分析。
谷歌使用的搜索程序也得到了由研發(fā)團隊使用的計算部件的極大幫助。由該領域的許多學術研究者使用的一套數(shù)據(jù)(由語言數(shù)據(jù)聯(lián)盟Linguistic Data Consortium提供)有52億個單詞。但谷歌可以處理大得多的集合,如僅僅從它所索引的網(wǎng)頁中抽取出來的單詞就達到了2×1012個?!拔覀儧]有更好的算法,”谷歌的彼得?諾維奇說,“我們只是有更多的數(shù)據(jù)?!?/p>
為了給單句找到最好的譯文,谷歌的算法搜索了上百萬可能的短語組合。硬盤不適合作為保留數(shù)據(jù)隨時備查的中介,只有隨機存取內(nèi)存(RAM,random access memory)才最合適。隨機存取內(nèi)存存量巨大是非常必要的――谷歌供人隨時查考的正是這巨大的存量。統(tǒng)計機器翻譯很適合于分布在數(shù)千臺機器中進行,而谷歌的數(shù)據(jù)中心(雖然最初是為了其他目的而建)的設備就能承受這種計算上的負荷。
有了可以處理任何規(guī)模的計算問題的計算基礎設施,谷歌的研究者便擁有了一個可以傲視群雄的巨大優(yōu)勢。他們的程序運行之快,在2005年國家標準和技術研究所舉行的機器翻譯競賽中已經(jīng)得到了體現(xiàn);在2006年的競賽中,他們又占據(jù)了領先地位。在參加阿-英翻譯的22個競賽者中,谷歌的整體成績排名第一;在參加漢-英翻譯的24個競賽者中,谷歌名列第二(被南加州大學著名的信息科學研究所險勝)。
ystran的主席兼CEO季米特里斯?沙巴塔卡基斯(Dimitris Sabatakakis)不能理解為何統(tǒng)計機器翻譯的結(jié)果總是超過他的規(guī)則基礎技術。2005年競賽結(jié)束后,他替以規(guī)則為基礎的方法作了些辯護,并建議沒有雇用以漢語為母語的人員的谷歌不要再玩弄類似花招。就Systran而言,“如果我們沒有中國人,我們的系統(tǒng)就可能出現(xiàn)嚴重的錯誤”。他不理解,如果沒有母語為漢語的人對譯文反復檢驗,谷歌為何能在2005年把Systran徹底打敗。但他沒有立即報名再次參加比賽:Systran從2006年的競賽中消失了。2007年沒有舉行比賽。所以尚不清楚Systran是否已經(jīng)決定永遠不再與統(tǒng)計機器翻譯直接較量。
谷歌沒有聲稱擁有最復雜的翻譯算法,但它的確擁有一些其他的機器翻譯團隊所不具備的東西:體量最大的訓練數(shù)據(jù)。2007年,負責機器翻譯研究的工程師弗朗茨·奧奇(Franz Och)說:“在自然程序領域有一種著名的說法,‘更多的數(shù)據(jù)就是更好的數(shù)據(jù)’。”為什么谷歌一直使用那些從Web網(wǎng)頁中搜集的2×1012詞匯量的文本?原因就在于:寫作質(zhì)量無從擔保,但絕對海量的額外數(shù)據(jù)對翻譯算法質(zhì)量的改進卻是實實在在的。