正文

做好搜索(3)

世界因你不同:李開復(fù)自傳 作者:李開復(fù)


在谷歌中文搜索2000年上線的時(shí)候,出現(xiàn)了一個(gè)嚴(yán)重的技術(shù)問題,谷歌中文總是把握不好“分詞”的問題。有一天我看到一篇清華的分析,說在搜索引擎里面,谷歌的精確度還是不錯(cuò)的,甚至領(lǐng)先其他中文搜索網(wǎng)站,但是分詞做得不夠好,原因就在于投入不夠。因?yàn)楫?dāng)時(shí)谷歌只有五位工作在美國的華人工程師,他們無法集中精力做好這件事情。

當(dāng)系統(tǒng)無法準(zhǔn)確分詞時(shí),就會(huì)鬧出很多笑話。比如,用戶輸入“電腦”兩個(gè)字,正常的情況是,頁面左側(cè)應(yīng)出現(xiàn)“電腦”的搜索結(jié)果,右側(cè)應(yīng)該出現(xiàn)電腦產(chǎn)品廣告,但因?yàn)榉衷~的錯(cuò)誤,可能會(huì)把“電腦”分成“電”和“腦”兩個(gè)字,出現(xiàn)的結(jié)果和廣告居然是關(guān)于“電話”和“腦白金”的,真令人啼笑皆非。

在搜索引擎領(lǐng)域,分詞是中文特有的一個(gè)挑戰(zhàn),我們需要做的不是做一個(gè)符合語言學(xué)的分詞,而是一個(gè)符合用戶使用習(xí)慣的分詞。比如說,除了要把常用詞正確分開外,還應(yīng)該分清最新的網(wǎng)上用詞,比如“打醬油”、“芙蓉姐姐”等等。

而即使分詞正確也仍可能造成匹配的問題。比如說,如果有一篇文章里面提到“清華大學(xué)”,但搜索“清華”,這篇文章就出不來了。但如果分詞時(shí)把文章里的“清華大學(xué)”分成“清華/大學(xué)”,那么搜索“清華大學(xué)”又出不了結(jié)果了,谷歌對(duì)這個(gè)問題研究了很久。

有一天,谷歌中國工程研究院副院長劉駿跑來興奮地說:“開復(fù),你的語音搜索論文可以用在分詞上。如果我們把中文的字當(dāng)做語音,然后用語音識(shí)別的方法和統(tǒng)計(jì)語言模式來識(shí)別出所有可能的分詞方法,那么匹配正確時(shí),‘清華’和‘清華大學(xué)’就可能同時(shí)出來。還有,我們有這么大的網(wǎng)絡(luò)語料庫,可以訓(xùn)練出一個(gè)非常巨大而精確的語言模型?!焙髞?,他帶領(lǐng)團(tuán)隊(duì)真的實(shí)現(xiàn)了這方面的突破。

在2006年下半年到2007年上半年,我們的工程師一一檢查嘗試各種領(lǐng)域的各種搜索詞,并統(tǒng)計(jì)出所有不合理的搜索結(jié)果,然后再向美國的工程師學(xué)習(xí)如何在系統(tǒng)里進(jìn)行修正??梢哉f,今天谷歌中文搜索的每一點(diǎn)進(jìn)步都是在工程師付出的辛勤努力下得來的。

那時(shí),每天都有很多有關(guān)提高搜索質(zhì)量的會(huì)議在清華科技園大廈召開,谷歌內(nèi)部的監(jiān)測系統(tǒng)每天都在對(duì)各家搜索引擎作出比較,我們?cè)u(píng)估搜索相關(guān)度、網(wǎng)頁索引大小、即時(shí)更新能力和對(duì)垃圾網(wǎng)站的識(shí)別性。為了衡量我們的進(jìn)度,在我辦公室外面就有一個(gè)大牌子,上面可以看到我們當(dāng)天的四個(gè)指標(biāo)表現(xiàn)如何,以及和競爭對(duì)手的差距又如何。

這是一項(xiàng)極其辛苦而回報(bào)率又相當(dāng)?shù)偷墓ぷ鳌S袝r(shí)一個(gè)由五名工程師組成的團(tuán)隊(duì)努力半年,也只不過把某一個(gè)指標(biāo)提升0 1%而已。但我總是苦口婆心地鼓勵(lì)大家:這樣的工作是積少成多的。五個(gè)人半年做出的成果有限,但一百個(gè)人做兩年就會(huì)有巨大的變化。

    

上一章目錄下一章

Copyright ? 讀書網(wǎng) m.ranfinancial.com 2005-2020, All Rights Reserved.
鄂ICP備15019699號(hào) 鄂公網(wǎng)安備 42010302001612號(hào)