《基于潛在語義的個性化搜索關鍵技術研究》包括以下幾個方面:
?。?)在計算機研究領域內,從哲學、心理學角度剖析用戶搜索行為,并從認知學的角度,提出了基于概率潛在語義動機分析的用戶行為模型,高度概括了各種具體搜索行為,從抽象的角度去理解用戶的搜索行為。該模型的提出為進一步研究個性化搜索提供了新的思路。
?。?)在文檔潛在語義空間中,應用Zipf分布與概率潛在語義分析算法相結合的方式進行文檔潛在主題提取,改善了文檔潛在主題提取的質量。
(3)以狄氏先驗的有限混合模型理論為基礎,提出了高效無監(jiān)督的網頁聚類算法。可以有效克服一般的文本聚類算法無法有效應對的高維性、稀疏性文本,以及文本數據之間的相似性函數定義困難,聚類質量和效率低等不足,改善了聚類效果,提高了捕獲用戶興趣潛在主題需求的能力。
?。?)提出了一種新的基于用戶潛在語義分析的查詢擴展技術。即將通用搜索中查詢擴展的技術與用戶動機挖掘技術相結合,而開發(fā)出的一種新的查詢擴展技術,解決了搜索引擎由于通用的性質而缺乏面向用戶的個性化的信息處理的能力,從了解用戶的語義上的搜索動機以及了解認知與心理相互作用的角度出發(fā),從根本上解決了查詢過程中的一詞多義及多詞同義等問題,在個性化搜索過程中有效的進行語義消歧。
?。?)針對面向查詢的排名算法的不足提出了面向用戶的重排名算法。即在原有網頁排序算法的基礎上,根據用戶的興趣偏好而提出的一種局部優(yōu)化排序算法,既符合用戶的個性化需求,又不影響搜索結果的查全率,盡可能做到其排序結果與用戶語義動機相符合。