但是,Systran建立在規(guī)則基礎(chǔ)上的技術(shù)只是機(jī)器翻譯的一種形式。另外一種不同的方法――IBM的研究者在20世紀(jì)90年代展示出其前景的――被稱(chēng)為統(tǒng)計(jì)機(jī)器翻譯。它代表了告別以規(guī)則為基礎(chǔ)的方法而轉(zhuǎn)向人工智能研究的大趨勢(shì)。它不是建立在人工擬定的語(yǔ)言規(guī)則基礎(chǔ)上,而是建立在由軟件自己開(kāi)發(fā)的翻譯模式基礎(chǔ)上。由于軟件接收了數(shù)以百萬(wàn)計(jì)的由人工完成的譯文組成的文件――例如在加拿大議會(huì)用英語(yǔ)發(fā)表的演講及其官方法語(yǔ)譯文。這個(gè)軟件注重尋找句型、對(duì)比詞匯和短語(yǔ),從A語(yǔ)言的第一段第一句以及它在B語(yǔ)言的相對(duì)應(yīng)的句子開(kāi)始。僅僅對(duì)照一組文件,推導(dǎo)出來(lái)的結(jié)論當(dāng)然少得可憐。而一旦對(duì)照的文件達(dá)到數(shù)百萬(wàn)組,那么一種語(yǔ)言中的句型和短語(yǔ)在目標(biāo)語(yǔ)言中具體用什么方式表達(dá),就可以根據(jù)統(tǒng)計(jì)材料推導(dǎo)出來(lái)。統(tǒng)計(jì)機(jī)器翻譯是谷歌研究人員在2003年初才開(kāi)始研究的方法。
谷歌采用聯(lián)合國(guó)的多語(yǔ)種文件作為訓(xùn)練材料,向它的算法輸入了2000億個(gè)單詞并讓這個(gè)軟件算出了每一對(duì)語(yǔ)言之間配對(duì)的句型。這個(gè)結(jié)果是顯而易見(jiàn)的。谷歌的說(shuō)英語(yǔ)的程序員雖然不具備閱讀漢語(yǔ)或阿拉伯語(yǔ)的能力,也根本不懂漢語(yǔ)或阿拉伯語(yǔ)的語(yǔ)音、語(yǔ)義或語(yǔ)法,但他們卻設(shè)計(jì)出了一個(gè)能夠自學(xué)的算法,它可以提供準(zhǔn)確的、有時(shí)甚至是相當(dāng)流利的譯文。在2005年的一次會(huì)議上,谷歌第一次公開(kāi)地討論了它所進(jìn)行的工作。為了證明統(tǒng)計(jì)機(jī)器翻譯能夠處理足夠大量的翻譯文本資料,特意用阿拉伯語(yǔ)報(bào)紙上的一段新聞提要的兩種英文譯本進(jìn)行了演示。第一種譯文由以規(guī)則為基礎(chǔ)的Systran軟件提供,它將那段阿拉伯文顯示為“阿爾卑斯山白色的新出場(chǎng)的磁帶注冊(cè)為咖啡批準(zhǔn)拉登”;第二個(gè)來(lái)自谷歌剛剛問(wèn)世的程序,它顯示了一段完全不同的譯文:“白宮證實(shí)有新的本?拉登磁帶存在?!?/p>
谷歌的翻譯算法在記者招待會(huì)這類(lèi)有人監(jiān)控的場(chǎng)合表現(xiàn)似乎令人印象深刻,證明它在獨(dú)立的測(cè)試中也站得住腳。的確,它的表現(xiàn)非常之好。2005年,谷歌第一次參加由國(guó)家標(biāo)準(zhǔn)與技術(shù)研究所主辦的機(jī)器翻譯軟件年度競(jìng)賽,這個(gè)賽事吸引了來(lái)自大學(xué)、公司、政府實(shí)驗(yàn)室和商業(yè)軟件制造業(yè)的研究人員。谷歌在有11個(gè)入選者參加的阿(阿拉伯語(yǔ))譯英比賽中名列第一(IBM名列第三,Systran名列第七),在有16個(gè)參賽者的漢譯英比賽中也名列第一(IBM名列第六,Systran名列第十二)。這對(duì)一個(gè)新手來(lái)說(shuō)是個(gè)不錯(cuò)的成績(jī)。
在這次比賽中,基本的測(cè)量手段是將機(jī)器制作的譯文同被視為“黃金標(biāo)準(zhǔn)”的人類(lèi)翻譯家提供的參考譯文進(jìn)行比照。從0到1的得分情況表明機(jī)器翻譯與人工翻譯的吻合度――1表示完全吻合。分?jǐn)?shù)是一個(gè)最直接的計(jì)算問(wèn)題,它由評(píng)估軟件自動(dòng)完成,減少了人工評(píng)判的主觀性。同樣的軟件也曾被用在比賽之外。研究人員可以對(duì)算法進(jìn)行微調(diào),將測(cè)試文件輸進(jìn)去,馬上就可以看到,在翻譯質(zhì)量可測(cè)量的改進(jìn)中,結(jié)果是否發(fā)生了變化。
谷歌不僅利用雙語(yǔ)平行文本建立了一種翻譯模式,它還用軟件創(chuàng)造了單語(yǔ)種的“語(yǔ)言模式”,對(duì)由翻譯模式制作的任何譯文進(jìn)行潤(rùn)色,使之更加流暢?!八惴ā痹诖罅烤邆鋵?zhuān)業(yè)水準(zhǔn)的文獻(xiàn)中尋找句型,進(jìn)而教會(huì)自己識(shí)別哪些是地道的英語(yǔ)表達(dá)方式。恰巧,谷歌已經(jīng)在它的服務(wù)器中使用了一個(gè)這種類(lèi)型的文集――由“谷歌新聞”所檢索的報(bào)道。即使“谷歌新聞”的用戶(hù)總是被導(dǎo)向新聞機(jī)構(gòu)的Web網(wǎng)頁(yè),但谷歌仍將貯存的新聞副本饋送給它自己的算法。人們偶然發(fā)現(xiàn),這個(gè)經(jīng)專(zhuān)業(yè)手法潤(rùn)色的文本寶庫(kù)――截至2007年4月已經(jīng)收集了5億字――是個(gè)使用起來(lái)極其方便的訓(xùn)練用文集,絕對(duì)適合于教會(huì)機(jī)器流暢地使用英語(yǔ)。