找到屬于自己的關(guān)鍵詞
作者:劉鐵巖
在研究院工作快5年了,沒想到電子工程出身的我會和SIGIR ,這一信息檢索領(lǐng)域的頂級會議,結(jié)下如此的不解之緣。
從2004年到2008年,自己在信息檢索這個方向上走過的道路,也是自己在微軟亞洲研究院不斷成長的過程:從熟悉信息檢索這個領(lǐng)域,量身定做地投出第一篇SIGIR論文,到提高研究能力和寫作技巧,到確定自己的主攻方向,到為引領(lǐng)一個研究學(xué)派而努力。
期間的收獲和感悟頗多,寫下來愿與大家分享。
第一年:“發(fā)表第一篇SIGIR論文”
我畢業(yè)于清華大學(xué)電子工程系,博士論文工作是關(guān)于視頻信號處理的,如視頻切割、關(guān)鍵幀抽取、視頻總結(jié)等。2003年加入微軟亞洲研究院,2004年轉(zhuǎn)入互聯(lián)網(wǎng)搜索與挖掘組,從此開始了對信息檢索這一全新領(lǐng)域的探索。
這次轉(zhuǎn)行沒有想象的那么艱難,因?yàn)槲④泚喼扪芯吭涸谛畔z索領(lǐng)域已經(jīng)有了很多的成果,在SIGIR上也發(fā)表了不少論文。有這么好的一個平臺,可以通過和同事們的交流很快進(jìn)入狀態(tài)。
但是過程并不輕松,畢竟信息檢索領(lǐng)域幾十年的歷史沉淀了很多的知識和經(jīng)驗(yàn),需要一點(diǎn)點(diǎn)去體會和掌握。為了更快更好地掌握這些知識,我和我的實(shí)習(xí)生們一起,在組內(nèi)開展了一系列的講座,包括《現(xiàn)代信息檢索》、《最優(yōu)化方法》、《統(tǒng)計(jì)機(jī)器學(xué)習(xí)》等等。經(jīng)驗(yàn)證明,這種方法十分有效:自己看書學(xué)習(xí)是一種感覺,要能夠在眾人面前把東西透徹地講出來,是另外一種境界。雖然不得不花很多的功夫,但是這個過程為我和我的實(shí)習(xí)生日后在信息檢索領(lǐng)域的研究打下了堅(jiān)實(shí)的理論基礎(chǔ)。
在提高基礎(chǔ)知識的同時(shí),我們也開始通過閱讀論文,以及和同事的交流來了解SIGIR這個會議。當(dāng)時(shí)的愿望很樸素:能夠盡快地像其他同事一樣,在SIGIR這個頂級學(xué)術(shù)會議上有論文發(fā)表。通過閱讀論文,我逐漸發(fā)現(xiàn)SIGIR其實(shí)是個很傳統(tǒng),很重視經(jīng)驗(yàn)結(jié)果的會議。SIGIR的論文通常都有很翔實(shí)的實(shí)驗(yàn)結(jié)果,因?yàn)橹挥羞@樣才能驗(yàn)證所提出的算法在海量信息處理中是否有上佳的表現(xiàn)。作為進(jìn)入這個領(lǐng)域的第一個嘗試,我決定“投其所好”,為SIGIR“量身定做”一篇有關(guān)經(jīng)驗(yàn)比較的論文。
當(dāng)時(shí)研究院正在參加TREC 比賽。這個比賽中有一個任務(wù)叫做Topic Distillation,其目的是找到與所查詢主題最相關(guān)的子網(wǎng)站入口,也就是說即便有的時(shí)候子頁面比父頁面更加相關(guān),我們還是希望返回父頁面。為了解決這個問題,我們提出把網(wǎng)頁里的關(guān)鍵詞按照網(wǎng)站結(jié)構(gòu)向父頁面進(jìn)行傳播。經(jīng)過實(shí)驗(yàn)驗(yàn)證,這個方法非常有效。于是我就想,是不是還有其他類似的做法呢?除了關(guān)鍵詞以外,我們是否可以把網(wǎng)頁的相關(guān)性得分(relevance score)進(jìn)行傳播?除了沿著網(wǎng)站結(jié)構(gòu)以外,我們是否還可以沿著超級鏈接結(jié)構(gòu)進(jìn)行傳播?有了這個想法以后,我們對以往的相關(guān)文獻(xiàn)進(jìn)行了調(diào)研,發(fā)現(xiàn)確實(shí)有人做過把相關(guān)性得分沿著超級鏈接進(jìn)行傳播的嘗試。這就啟發(fā)我對以上提及的各種傳播方式進(jìn)行系統(tǒng)的對比研究。于是我把所有相關(guān)的方法進(jìn)行列舉、分類,并對其進(jìn)行了大量的實(shí)驗(yàn)比較,并最終得到了很多有意思的結(jié)果。我按照自己總結(jié)的SIGIR的“范式文本”,把這些比較結(jié)果寫成了一篇論文,提交給了SIGIR 2005。最終這篇文章被錄用了。雖然有些幸運(yùn)的成分,但是不管怎么樣,通過“模仿”,我的SIGIR之旅正式啟航了。