97大神超碰在线中文字幕,亚洲aⅴ,亚洲欧洲自拍图片小说专幕区

但是，Systran建立在規(guī)則基礎(chǔ)上的技術(shù)只是機器翻譯的一種形式。另外一種不同的方法――IBM的研究者在20世紀90年代展示出其前景的――被稱為統(tǒng)計機器翻譯。它代表了告別以規(guī)則為基礎(chǔ)的方法而轉(zhuǎn)向人工智能研究的大趨勢。它不是建立在人工擬定的語言規(guī)則基礎(chǔ)上，而是建立在由軟件自己開發(fā)的翻譯模式基礎(chǔ)上。由于軟件接收了數(shù)以百萬計的由人工完成的譯文組成的文件――例如在加拿大議會用英語發(fā)表的演講及其官方法語譯文。這個軟件注重尋找句型、對比詞匯和短語，從A語言的第一段第一句以及它在B語言的相對應的句子開始。僅僅對照一組文件，推導出來的結(jié)論當然少得可憐。而一旦對照的文件達到數(shù)百萬組，那么一種語言中的句型和短語在目標語言中具體用什么方式表達，就可以根據(jù)統(tǒng)計材料推導出來。統(tǒng)計機器翻譯是谷歌研究人員在2003年初才開始研究的方法。

谷歌采用聯(lián)合國的多語種文件作為訓練材料，向它的算法輸入了2000億個單詞并讓這個軟件算出了每一對語言之間配對的句型。這個結(jié)果是顯而易見的。谷歌的說英語的程序員雖然不具備閱讀漢語或阿拉伯語的能力，也根本不懂漢語或阿拉伯語的語音、語義或語法，但他們卻設計出了一個能夠自學的算法，它可以提供準確的、有時甚至是相當流利的譯文。在2005年的一次會議上，谷歌第一次公開地討論了它所進行的工作。為了證明統(tǒng)計機器翻譯能夠處理足夠大量的翻譯文本資料，特意用阿拉伯語報紙上的一段新聞提要的兩種英文譯本進行了演示。第一種譯文由以規(guī)則為基礎(chǔ)的Systran軟件提供，它將那段阿拉伯文顯示為“阿爾卑斯山白色的新出場的磁帶注冊為咖啡批準拉登”；第二個來自谷歌剛剛問世的程序，它顯示了一段完全不同的譯文：“白宮證實有新的本?拉登磁帶存在?！?/p>

谷歌的翻譯算法在記者招待會這類有人監(jiān)控的場合表現(xiàn)似乎令人印象深刻，證明它在獨立的測試中也站得住腳。的確，它的表現(xiàn)非常之好。2005年，谷歌第一次參加由國家標準與技術(shù)研究所主辦的機器翻譯軟件年度競賽，這個賽事吸引了來自大學、公司、政府實驗室和商業(yè)軟件制造業(yè)的研究人員。谷歌在有11個入選者參加的阿（阿拉伯語）譯英比賽中名列第一（IBM名列第三，Systran名列第七），在有16個參賽者的漢譯英比賽中也名列第一（IBM名列第六，Systran名列第十二）。這對一個新手來說是個不錯的成績。

在這次比賽中，基本的測量手段是將機器制作的譯文同被視為“黃金標準”的人類翻譯家提供的參考譯文進行比照。從0到1的得分情況表明機器翻譯與人工翻譯的吻合度――1表示完全吻合。分數(shù)是一個最直接的計算問題，它由評估軟件自動完成，減少了人工評判的主觀性。同樣的軟件也曾被用在比賽之外。研究人員可以對算法進行微調(diào)，將測試文件輸進去，馬上就可以看到，在翻譯質(zhì)量可測量的改進中，結(jié)果是否發(fā)生了變化。

谷歌不僅利用雙語平行文本建立了一種翻譯模式，它還用軟件創(chuàng)造了單語種的“語言模式”，對由翻譯模式制作的任何譯文進行潤色，使之更加流暢?！八惴ā痹诖罅烤邆鋵I(yè)水準的文獻中尋找句型，進而教會自己識別哪些是地道的英語表達方式。恰巧，谷歌已經(jīng)在它的服務器中使用了一個這種類型的文集――由“谷歌新聞”所檢索的報道。即使“谷歌新聞”的用戶總是被導向新聞機構(gòu)的Web網(wǎng)頁，但谷歌仍將貯存的新聞副本饋送給它自己的算法。人們偶然發(fā)現(xiàn)，這個經(jīng)專業(yè)手法潤色的文本寶庫――截至2007年4月已經(jīng)收集了5億字――是個使用起來極其方便的訓練用文集，絕對適合于教會機器流暢地使用英語。