谷歌在機(jī)器翻譯方面的成就還不能被說成是獲得了足以養(yǎng)活自己的收益。谷歌在服務(wù)領(lǐng)域的拓展中所遇到的最復(fù)雜的問題就是,許多拓展項目對公司毫無貢獻(xiàn),至少沒有直接貢獻(xiàn)。盡管如此,機(jī)器翻譯仍是一個恰當(dāng)?shù)捻椖?。谷歌并沒有急于將它的機(jī)器翻譯能力投入商業(yè)性應(yīng)用。它的機(jī)器翻譯團(tuán)隊還只是谷歌實驗室的一部分,而且其主要精力都放在研究上。在實驗的基礎(chǔ)上,團(tuán)隊在2007年為使用谷歌搜索引擎的用戶提供了三種語言――阿拉伯語、漢語、俄語――的英語翻譯服務(wù)。
隨著谷歌的翻譯工作不斷取得進(jìn)展,它的翻譯結(jié)果也遠(yuǎn)不止于經(jīng)過了潤色和符合語言習(xí)慣。當(dāng)《華爾街日報》的雙語(英語、阿拉伯語)記者薩馬德?阿里(Sarmad Ali)于2007年12月在試用谷歌、Systran和另外兩個競爭者的阿-英在線翻譯服務(wù)時,他為這幾家公司的翻譯結(jié)果中的語法錯誤和語義錯誤列了一張表,按照錯誤的程度排列順序,從“值得斟酌”到“荒唐可笑”都有。
那一年的早些時候,谷歌的奧奇在一個公開的場合談及機(jī)器翻譯的結(jié)果時,談到了谷歌最好的一面:這個組織致力于不斷開拓信息傳播的廣度,看不出它對自己的商業(yè)利益的關(guān)心。他說,如果聽眾中有人打算親手建設(shè)一個機(jī)器翻譯的算法,谷歌很愿意提供幫助。谷歌同非營利性的賓夕法尼亞大學(xué)的語言數(shù)據(jù)聯(lián)盟(Linguistic Data Consortium)合作,一開始就以運(yùn)費(fèi)的名義提供了一套包含必要的基礎(chǔ)訓(xùn)練數(shù)據(jù)的DVD,這套數(shù)據(jù)列舉了各種詞語組合――其長度(技術(shù)術(shù)語表示為precounted n-grams)從1個詞到5個詞不等――的使用頻率,它們的基礎(chǔ)就是谷歌的爬行器從Web中搜集來的上萬億個詞匯量的英語文獻(xiàn)。
統(tǒng)計機(jī)器翻譯依靠平行文本向“算法”輸入信息――奧奇說,至少要輸入1億字左右的平行數(shù)據(jù),才能建立一個能夠產(chǎn)生理性可以接受的結(jié)果的翻譯系統(tǒng)。對于平行文本的這種依賴,限制了適用于機(jī)器翻譯的語言配對的數(shù)量。目前,還沒有足夠的雙語文本可賴以創(chuàng)建一個(比如說)直接從希臘語翻譯為泰語的系統(tǒng),所以在這樣一個過渡時期,橋梁性語言――如英語――就必不可少。機(jī)器翻譯最終能否將任何語言的文本直接翻譯成任一其他語言?采用基于理解語言學(xué)和建立中介性源語言等方法有無必要?這些問題都還沒有明確的答案。迄今為止,人們看到的是,似乎只要有了足夠大量的數(shù)據(jù),不可能的任務(wù)也會變?yōu)榭赡堋?/p>
谷歌程序的速度令人震驚,人們也有理由對它持樂觀的期待。它的統(tǒng)計機(jī)器翻譯所提供的服務(wù)從2007年春天的3種源語言增加到了13種,然后是23種,這都是在不到一年的時間內(nèi)取得的。公司不僅能提供從非英語到英語的翻譯,而且能在這23種源語言中的任兩個語言之間實現(xiàn)互譯。截至2008年5月,這些語言是:阿拉伯文、保加利亞文、中文(包括簡體中文和繁體中文)、克羅地亞文、捷克文、丹麥文、英文、芬蘭文、法文、德文、希臘文、印地文、意大利文、韓文、日文、挪威文、波蘭文、羅馬尼亞文、俄文、西班牙文、瑞典文和葡萄牙文。
機(jī)器翻譯項目證明了谷歌是如何被“更多的數(shù)據(jù)是更好的數(shù)據(jù)”這一信條所驅(qū)動的。在信息產(chǎn)業(yè),完全性――無論是就一個信息目錄的完整性而言還是就包括的目錄的窮盡性而言,都是至為關(guān)鍵的因素,因為數(shù)據(jù)達(dá)到前所未有地多,只會使算法的智能化水平變得前所未有地高,這反過來又鞏固了谷歌的領(lǐng)先地位,把對手更遠(yuǎn)地甩在身后。
谷歌以免費(fèi)電話為基礎(chǔ)的信息服務(wù),1-800-GOOG-411就是一個很好的例證。這項服務(wù)運(yùn)用聲音識別軟件來提供本地企業(yè)的電話號碼咨詢。這項服務(wù)不收費(fèi),也不夾帶廣告。谷歌的瑪麗莎?梅耶爾在2007年10月的一次談話中承認(rèn),她也懷疑谷歌是不是會變成一個公益性機(jī)構(gòu)。但她并不擔(dān)心,因為谷歌是利用這項服務(wù)搜集音素,而不是賺取利潤。她說:“我們必須建成一個可用于各種不同事物(包括視頻搜索在內(nèi))的更大的從話語到文本的模型?!惫雀璧脑捳Z識別專家曾對她說:“如果你們要我們?nèi)ソ⒁粋€真正強(qiáng)有力的話語模型,我們就需要很多的音素……人們怎樣交談、怎樣說事兒。有了這些,我們最終就可以訓(xùn)練軟件來掌握并應(yīng)用它們。”還是那句話:“更多的數(shù)據(jù)是更好的數(shù)據(jù)。”
谷歌知道,算法的結(jié)果不是沒有瑕疵,但公司將算法的缺陷視為數(shù)據(jù)量不夠大而導(dǎo)致的局限,是其內(nèi)部工作有待完善而出現(xiàn)的微調(diào),絕不會將它當(dāng)作自動化程序固有的問題。公司已經(jīng)決定向算法輸入更多的信息,這些信息必須以前所未有的力量進(jìn)一步搜索才能得到。它已經(jīng)可以充滿自信地宣布,已經(jīng)擁有了所能找到的一切圖書,擁有了它的用戶可能點(diǎn)擊的一切視頻,擁有了能夠覆蓋天空和大地的各類地圖。
在這些額外添加到谷歌信息庫的東西中,有一些對它可能顯得無關(guān)緊要,因為它的核心興趣是網(wǎng)絡(luò)搜索及相關(guān)廣告;有些可能會被證明屬于浪費(fèi)性的實驗,有些可能會被證明為廣受歡迎卻最終無法得到回報的服務(wù)。它們或許會――或許不會――反過來對谷歌的前途產(chǎn)生重大影響。每一項都有自己的故事,但主題卻是共同的:谷歌對新的信息種類的熱切追求沒有減退也沒有動搖;即使在它的公眾形象被它的行動所引起的爭論所損害的時候,也一如既往。
當(dāng)每一個展開的故事都受到仔細(xì)檢查時,谷歌這塊巨石的光滑表面就會消退,隨時調(diào)整決定的更加復(fù)雜的面目就會浮現(xiàn)。私人公司和小型團(tuán)隊在起步階段最為重視的企業(yè)文化就可以從這些故事中解讀出來。但這也有一個未經(jīng)調(diào)查的信任度,即谷歌的利益與其客戶的利益是完全一致的。在谷歌看來,每個新的服務(wù)項目都是人類的一個進(jìn)步。有一天,當(dāng)實驗過程全部結(jié)束,它們便可以被視為谷歌“組織起全世界的信息”這一使命的精彩實現(xiàn),被視為有遠(yuǎn)見的幻想;但也可能完全相反,同樣的故事在某一天被讀作浪費(fèi)資源的紀(jì)錄,被讀作剛愎自用的鐵證。