正文

第74節(jié):微軟對聯(lián)背后的故事(2)

揭秘微軟亞洲研究院:微軟的夢工場 作者:微軟亞洲研究院


評論二:

我也從來沒有在家門貼春聯(lián)的習(xí)慣,但是老爸喜愛書法藝術(shù),也略有小成,用著這套好玩的微軟對聯(lián)機(jī),心想:趕著春節(jié)將至,不如編個春聯(lián)讓老爸寫寫,也蠻熱鬧喜慶的,即成上聯(lián):木土杜家喜迎吉祥鼠,對聯(lián)機(jī)略做運(yùn)算即成下聯(lián):車干軒戶春接富貴人,橫批:駿業(yè)順風(fēng)?!?/p>

我常常在思考,這個微軟對聯(lián)系統(tǒng)究竟有什么值得總結(jié)的地方??吹轿④泴β?lián),再看到這么多網(wǎng)上的評論,我的腦海里就總象在放電影一樣,把這個歷程里出現(xiàn)的人物和有趣的事情一幕一幕地閃現(xiàn)出來。值此微軟研究院十周年之際,我想確實(shí)應(yīng)該趁現(xiàn)在記憶還清晰的時候,把這段歷史好好地總結(jié)一下,以便讓十年、二十年之后的人們還能夠看到曾經(jīng)發(fā)生的有趣的故事。

誓與李敖比高低

微軟對聯(lián)這個項(xiàng)目,跟前任院長沈向洋大有淵源。此事說來有點(diǎn)話長了。

2004年底的時候,沈向洋把我叫去,說搞個自動對聯(lián)吧。所謂自動對聯(lián),就是說人出上聯(lián),由計(jì)算機(jī)對出下聯(lián)。他之前跟幾個人都聊過這個設(shè)想,所有的人都告訴他別想了,不可能做出來。他失望,不甘心,反復(fù)提起來?!胺凑闶窃洪L,你說做就做吧。”大家說。有點(diǎn)像傣族的潑水節(jié),潑的都是冷水。

他跟我說你能做也得做,不能做也得做。我說我肯定做,而且肯定能做出來。不過,要允許下聯(lián)有多個候選,還要允許人機(jī)交互。另外,我需要時間。我當(dāng)時可說是窮困潦倒,自然語言組不足10人,有兩名骨干即將轉(zhuǎn)到微軟別的部門去。還有幾個項(xiàng)目同時在做技術(shù)轉(zhuǎn)移,包括搜索引擎的拼寫檢查。大家還要趕寫很多文章。我就從清華大學(xué)中文系招了一位同學(xué),他的名字是馬艷軍,聽上去像一個女孩的名字,人也是彬彬有禮的。

我設(shè)計(jì)了一個簡單的模型,把對聯(lián)的生成過程看作是一個翻譯的過程。給定一個上聯(lián),根據(jù)字的對應(yīng)和詞的對應(yīng),生成很多選字和候選詞,得到一個從左到右相互關(guān)聯(lián)的詞圖,然后根據(jù)一個動態(tài)規(guī)劃算法,求一個最好的下聯(lián)出來。一個好的下聯(lián)其評價(jià)標(biāo)準(zhǔn)也很簡單,第一就是它跟上聯(lián)的對應(yīng)程度,一般用詞和詞的對應(yīng)概率來代表,第二就是生成對聯(lián)的語言模型,就是衡量它像不像一個對聯(lián)。馬艷軍在我的指導(dǎo)下,在兩個多月的時間里,根據(jù)這個思路,就做了一個簡單的對聯(lián)生成系統(tǒng)出來。我于是向沈向洋報(bào)告進(jìn)展,這也是沈向洋第一次審核這個項(xiàng)目。

在他辦公室里,我給他看了這個簡單的系統(tǒng)輸出的幾個結(jié)果。他看過之后,很驚訝地說,看來我們有戲呀,繼續(xù)努力吧!馬艷軍三個月之后,導(dǎo)師要求他回去,我只好去找語音組幫忙提供新的學(xué)生。我曾經(jīng)在語音組干過半年的經(jīng)理,有點(diǎn)人緣。周健來很慷慨地介紹了吳法洲同學(xué),他是清華軟件學(xué)院的研究生,曾經(jīng)幫助健來做了手機(jī)上的輸入法。吳法洲同學(xué)來了之后不久,我又請我的實(shí)習(xí)生蔣龍同學(xué)加入。后來沈向洋讓他在北航的預(yù)定將來要讀他的博士的兩位實(shí)驗(yàn)學(xué)院的大四同學(xué)加入這個研究小組。女孩子叫陶李天,男孩子叫蘇昊。我當(dāng)時又請了北京大學(xué)中文系的兩位同學(xué)整理從網(wǎng)絡(luò)上挖掘的對聯(lián)數(shù)據(jù)以及生成的對聯(lián)詞典。

后來是每隔三個月,沈向洋就會安排一次評審。每一次都鼓勵說,大有進(jìn)步。每一次都強(qiáng)調(diào)“要多挖數(shù)據(jù)呀,沒有數(shù)據(jù)不行啊”。為了加強(qiáng)數(shù)據(jù)挖掘,他特別請王堅(jiān)派人幫助加強(qiáng)數(shù)據(jù)挖掘。王堅(jiān)就派了陳偉柱來,我就請偉柱幫助從網(wǎng)絡(luò)上挖掘更多的對聯(lián)數(shù)據(jù)。偉柱果真了不起,在兩個月的時間里,很快挖掘了大批的對聯(lián)數(shù)據(jù)。有了更多的數(shù)據(jù),系統(tǒng)的性能得到了大幅度的提升。然后大家就討論能不能把橫批做出來。蔣龍同學(xué)很聰明,在一次開會的時候提出了一個方案——通過語義距離計(jì)算來和已有的上聯(lián)、下聯(lián)的句子最佳匹配的橫批。蘇昊根據(jù)這個方案實(shí)現(xiàn)了橫批模塊。我們于是就盼望著下一次給沈向洋做匯報(bào)的時候給他一個驚喜。當(dāng)時的院長助理李世鵬安排了時間。在五樓的一個會議室里面,我給沈向洋和李世鵬演示了最新的對聯(lián)系統(tǒng)。沈向洋出了一個上聯(lián):“李敖對聯(lián)強(qiáng)”,電腦沉思了一毫秒,對出來“魯迅絕句多”。沈向洋說:“不錯,那么橫批呢”。這時候我很忐忑,鬼才知道會對出來個爺爺還是奶奶。瞬間結(jié)果出來了,系統(tǒng)對出來的橫批是“語妙天下”。沈向洋一拍桌子,說“絕了!”。


上一章目錄下一章

Copyright ? 讀書網(wǎng) m.ranfinancial.com 2005-2020, All Rights Reserved.
鄂ICP備15019699號 鄂公網(wǎng)安備 42010302001612號