日本免费中文字幕喷水,I国产亚洲精品精品2020,成片一卡二卡三卡四卡最新

在谷歌中文搜索2000年上線的時(shí)候，出現(xiàn)了一個(gè)嚴(yán)重的技術(shù)問(wèn)題，谷歌中文總是把握不好“分詞”的問(wèn)題。有一天我看到一篇清華的分析，說(shuō)在搜索引擎里面，谷歌的精確度還是不錯(cuò)的，甚至領(lǐng)先其他中文搜索網(wǎng)站，但是分詞做得不夠好，原因就在于投入不夠。因?yàn)楫?dāng)時(shí)谷歌只有五位工作在美國(guó)的華人工程師，他們無(wú)法集中精力做好這件事情。

當(dāng)系統(tǒng)無(wú)法準(zhǔn)確分詞時(shí)，就會(huì)鬧出很多笑話。比如，用戶輸入“電腦”兩個(gè)字，正常的情況是，頁(yè)面左側(cè)應(yīng)出現(xiàn)“電腦”的搜索結(jié)果，右側(cè)應(yīng)該出現(xiàn)電腦產(chǎn)品廣告，但因?yàn)榉衷~的錯(cuò)誤，可能會(huì)把“電腦”分成“電”和“腦”兩個(gè)字，出現(xiàn)的結(jié)果和廣告居然是關(guān)于“電話”和“腦白金”的，真令人啼笑皆非。

在搜索引擎領(lǐng)域，分詞是中文特有的一個(gè)挑戰(zhàn)，我們需要做的不是做一個(gè)符合語(yǔ)言學(xué)的分詞，而是一個(gè)符合用戶使用習(xí)慣的分詞。比如說(shuō)，除了要把常用詞正確分開外，還應(yīng)該分清最新的網(wǎng)上用詞，比如“打醬油”、“芙蓉姐姐”等等。

而即使分詞正確也仍可能造成匹配的問(wèn)題。比如說(shuō)，如果有一篇文章里面提到“清華大學(xué)”，但搜索“清華”，這篇文章就出不來(lái)了。但如果分詞時(shí)把文章里的“清華大學(xué)”分成“清華/大學(xué)”，那么搜索“清華大學(xué)”又出不了結(jié)果了，谷歌對(duì)這個(gè)問(wèn)題研究了很久。

有一天，谷歌中國(guó)工程研究院副院長(zhǎng)劉駿跑來(lái)興奮地說(shuō)：“開復(fù)，你的語(yǔ)音搜索論文可以用在分詞上。如果我們把中文的字當(dāng)做語(yǔ)音，然后用語(yǔ)音識(shí)別的方法和統(tǒng)計(jì)語(yǔ)言模式來(lái)識(shí)別出所有可能的分詞方法，那么匹配正確時(shí)，‘清華’和‘清華大學(xué)’就可能同時(shí)出來(lái)。還有，我們有這么大的網(wǎng)絡(luò)語(yǔ)料庫(kù)，可以訓(xùn)練出一個(gè)非常巨大而精確的語(yǔ)言模型?！焙髞?lái)，他帶領(lǐng)團(tuán)隊(duì)真的實(shí)現(xiàn)了這方面的突破。

在2006年下半年到2007年上半年，我們的工程師一一檢查嘗試各種領(lǐng)域的各種搜索詞，并統(tǒng)計(jì)出所有不合理的搜索結(jié)果，然后再向美國(guó)的工程師學(xué)習(xí)如何在系統(tǒng)里進(jìn)行修正?？梢哉f(shuō)，今天谷歌中文搜索的每一點(diǎn)進(jìn)步都是在工程師付出的辛勤努力下得來(lái)的。

那時(shí)，每天都有很多有關(guān)提高搜索質(zhì)量的會(huì)議在清華科技園大廈召開，谷歌內(nèi)部的監(jiān)測(cè)系統(tǒng)每天都在對(duì)各家搜索引擎作出比較，我們?cè)u(píng)估搜索相關(guān)度、網(wǎng)頁(yè)索引大小、即時(shí)更新能力和對(duì)垃圾網(wǎng)站的識(shí)別性。為了衡量我們的進(jìn)度，在我辦公室外面就有一個(gè)大牌子，上面可以看到我們當(dāng)天的四個(gè)指標(biāo)表現(xiàn)如何，以及和競(jìng)爭(zhēng)對(duì)手的差距又如何。

這是一項(xiàng)極其辛苦而回報(bào)率又相當(dāng)?shù)偷墓ぷ?。有時(shí)一個(gè)由五名工程師組成的團(tuán)隊(duì)努力半年，也只不過(guò)把某一個(gè)指標(biāo)提升0 1%而已。但我總是苦口婆心地鼓勵(lì)大家：這樣的工作是積少成多的。五個(gè)人半年做出的成果有限，但一百個(gè)人做兩年就會(huì)有巨大的變化。