正文

第74節(jié):微軟對聯背后的故事(2)

揭秘微軟亞洲研究院:微軟的夢工場 作者:微軟亞洲研究院


評論二:

我也從來沒有在家門貼春聯的習慣,但是老爸喜愛書法藝術,也略有小成,用著這套好玩的微軟對聯機,心想:趕著春節(jié)將至,不如編個春聯讓老爸寫寫,也蠻熱鬧喜慶的,即成上聯:木土杜家喜迎吉祥鼠,對聯機略做運算即成下聯:車干軒戶春接富貴人,橫批:駿業(yè)順風?!?/p>

我常常在思考,這個微軟對聯系統究竟有什么值得總結的地方。看到微軟對聯,再看到這么多網上的評論,我的腦海里就總象在放電影一樣,把這個歷程里出現的人物和有趣的事情一幕一幕地閃現出來。值此微軟研究院十周年之際,我想確實應該趁現在記憶還清晰的時候,把這段歷史好好地總結一下,以便讓十年、二十年之后的人們還能夠看到曾經發(fā)生的有趣的故事。

誓與李敖比高低

微軟對聯這個項目,跟前任院長沈向洋大有淵源。此事說來有點話長了。

2004年底的時候,沈向洋把我叫去,說搞個自動對聯吧。所謂自動對聯,就是說人出上聯,由計算機對出下聯。他之前跟幾個人都聊過這個設想,所有的人都告訴他別想了,不可能做出來。他失望,不甘心,反復提起來。“反正你是院長,你說做就做吧?!贝蠹艺f。有點像傣族的潑水節(jié),潑的都是冷水。

他跟我說你能做也得做,不能做也得做。我說我肯定做,而且肯定能做出來。不過,要允許下聯有多個候選,還要允許人機交互。另外,我需要時間。我當時可說是窮困潦倒,自然語言組不足10人,有兩名骨干即將轉到微軟別的部門去。還有幾個項目同時在做技術轉移,包括搜索引擎的拼寫檢查。大家還要趕寫很多文章。我就從清華大學中文系招了一位同學,他的名字是馬艷軍,聽上去像一個女孩的名字,人也是彬彬有禮的。

我設計了一個簡單的模型,把對聯的生成過程看作是一個翻譯的過程。給定一個上聯,根據字的對應和詞的對應,生成很多選字和候選詞,得到一個從左到右相互關聯的詞圖,然后根據一個動態(tài)規(guī)劃算法,求一個最好的下聯出來。一個好的下聯其評價標準也很簡單,第一就是它跟上聯的對應程度,一般用詞和詞的對應概率來代表,第二就是生成對聯的語言模型,就是衡量它像不像一個對聯。馬艷軍在我的指導下,在兩個多月的時間里,根據這個思路,就做了一個簡單的對聯生成系統出來。我于是向沈向洋報告進展,這也是沈向洋第一次審核這個項目。

在他辦公室里,我給他看了這個簡單的系統輸出的幾個結果。他看過之后,很驚訝地說,看來我們有戲呀,繼續(xù)努力吧!馬艷軍三個月之后,導師要求他回去,我只好去找語音組幫忙提供新的學生。我曾經在語音組干過半年的經理,有點人緣。周健來很慷慨地介紹了吳法洲同學,他是清華軟件學院的研究生,曾經幫助健來做了手機上的輸入法。吳法洲同學來了之后不久,我又請我的實習生蔣龍同學加入。后來沈向洋讓他在北航的預定將來要讀他的博士的兩位實驗學院的大四同學加入這個研究小組。女孩子叫陶李天,男孩子叫蘇昊。我當時又請了北京大學中文系的兩位同學整理從網絡上挖掘的對聯數據以及生成的對聯詞典。

后來是每隔三個月,沈向洋就會安排一次評審。每一次都鼓勵說,大有進步。每一次都強調“要多挖數據呀,沒有數據不行啊”。為了加強數據挖掘,他特別請王堅派人幫助加強數據挖掘。王堅就派了陳偉柱來,我就請偉柱幫助從網絡上挖掘更多的對聯數據。偉柱果真了不起,在兩個月的時間里,很快挖掘了大批的對聯數據。有了更多的數據,系統的性能得到了大幅度的提升。然后大家就討論能不能把橫批做出來。蔣龍同學很聰明,在一次開會的時候提出了一個方案——通過語義距離計算來和已有的上聯、下聯的句子最佳匹配的橫批。蘇昊根據這個方案實現了橫批模塊。我們于是就盼望著下一次給沈向洋做匯報的時候給他一個驚喜。當時的院長助理李世鵬安排了時間。在五樓的一個會議室里面,我給沈向洋和李世鵬演示了最新的對聯系統。沈向洋出了一個上聯:“李敖對聯強”,電腦沉思了一毫秒,對出來“魯迅絕句多”。沈向洋說:“不錯,那么橫批呢”。這時候我很忐忑,鬼才知道會對出來個爺爺還是奶奶。瞬間結果出來了,系統對出來的橫批是“語妙天下”。沈向洋一拍桌子,說“絕了!”。


上一章目錄下一章

Copyright ? 讀書網 m.ranfinancial.com 2005-2020, All Rights Reserved.
鄂ICP備15019699號 鄂公網安備 42010302001612號