用户兴趣模型在垂直搜索引擎检索模块中的应用

时间:2023-12-31 点赞:51677 浏览:107201 作者原创标记本站原创

本文是一篇用户论文范文,关于用户类本科毕业论文范文,关于用户兴趣模型在垂直搜索引擎检索模块中的应用相关毕业论文参考文献格式范文。适合用户及兴趣及建模方面的的大学硕士和本科毕业论文以及用户相关开题报告范文和职称论文写作参考文献资料下载。

摘 要:在Lucene的基础上设计了垂直搜索引擎模型的检索模块,以提高检索的质量,改变文档的排名,改善用户体验.该模型在检索模块中综合了四个方面来计算文档得分,即主题相关度得分、网页重要性得分、用户兴趣计算得分、关 键 词位置权值得分.为了让检索结果更能体现用户的实际需要,特别加重了用户兴趣部分的权重分值,并通过实验证明了改进的检索模块比传统的检索更有实际效果,增强了垂直搜索的个性化.

关 键 词:用户兴趣;Lucene;检索;个性化

中图分类号:TP393文献标志码:A文章编号:1006-8228(2012)12-34-02

Applicationofuserinterestmodelinretrievalmoduleofverticalsearchengine

LiXiaohong,LiMaolin

(CenterofComputer;ShaoyangMedicalCollege,Shaoyang,Hunan422200,China)

Abstract:Inthispaper,retrievalmoduleofverticalsearchenginemodelbasedonLuceneisdesigned,inordertoimprovetheretrievalquality,changethedocumentrankandimprovetheuser’sexperience.Fouraspectsarebinedinthioduletocalculatethedocumentscore,thatis,subjectcorrelationscore,webpageimportancescore,userinterestscore,keywordspositionweightscore.Inordertomaketheretrievalresultsbetterreflecttheactualneedsofusers,userinterestpartisespeciallyaggrated.Theresultsprovethattheimprovedretrievalmodulehaorepracticaleffectthanthetraditionalretrieval,anditenhancestheverticalsearchpersonalization.

Keywords:userinterest;Lucene;retrieval;individualization

0引言

搜索引擎作为网络信息查询的主要工具已经在人类生活中占据了主导地位,搜索引擎的搜索质量直接影响到用户体验.垂直搜索在专业性上略胜与传统的搜索引擎.本文主要改进垂直搜索引擎的检索模块,在传统的Lucene检索模块中加入Pagerank得分,关 键 词得分,并特别加入了用户兴趣得分,建立了一个个性化的垂直搜索检索模块模型,从而使垂直搜索在个性化上更贴近用户的使用习惯和兴趣.


1用户兴趣模型的建立

用户兴趣作为垂直搜索引擎当中的一项个性化服务,直接影响到了用户使用该垂直搜索的体验[1].用户兴趣模型的建立应从两个方面分析:一是用户兴趣模型能否反映用户的真实兴趣爱好;二是针对用户查询兴趣的多变性,该模型是否能满足变化的用户兴趣.

1.1常用的用户建模技术

现今的用户建模技术分为三类:用户手工建模、示例用户建模和自动用户建模.

⑴用户手工建模

用户自己动手在网页上选择或者手动输入自己的兴趣爱好.该方法实现简单,得到的用户兴趣结果可靠.但是存在不足:①影响用户体验,一般用户对频繁的输入和选择缺乏兴趣;②更新用户模型困难,一旦用户的兴趣发生转移,而又让用户重新提交网页文档会给用户造成负担;③反映用户兴趣不全面,提供给用户的选择项本身就带有主观性,另外用户选择时也存在不能准确表达的情况,这些将直接导致收集的用户兴趣不够准确[2].

⑵示例用户建模

示例用户模型的建模是用户自己提供相关的兴趣爱好示例及其类别属性.用户在浏览网页时标注对页面的感兴趣程度即可得到用户建模的示例.

⑶自动用户建模

通过留意用户浏览网页的内容和浏览网页时的行为自动为用户构建一个用户模型[5],这种建模无需用户主动参与,通过用户上网时的行为采用数据挖掘技术自动获取用户的兴趣爱好.虽然这种方法会带来一定的噪声,影响用户浏览时的速度,对建立高质量的用户模型也有一定的影响,但是该方法无需用户主动提供信息,不干扰用户的其他操作,从用户体验的角度来说是比较好的建模方法.因此,未来建模技术的发展方向都会采用自动建模技术.

1.2用户兴趣行为的量化表示

通过对自动用户建模的相关研究发现,用户的兴趣与用户的行为是紧密相连的.用户兴趣可以通过用户浏览该页面的时间和拖动滚动条的时间来有效地反映.而通过用户阅读页面平均速度能帮助建模时确定用户兴趣的等级.另外用户查询、标记书签、浏览页面、点击鼠标、反馈信息、拖动滚动条、后退、前进等这些行为都可以暗示用户的爱好.用户访问页面时的停留时间、访问次数、保存、编辑、修改等动作都能够揭示用户兴趣[3].

通过以上分析,将用户行为用二维表格来记录,称用户行为数据表[3].数据表又分为两种类型:基于关 键 词的用户行为数据表和基于文档的用户行为数据表.前者描述用户在关 键 词上的行为,其结构如表1所示;后者描述用户在一篇文档上的行为,其结构如表2所示.表1中的数据为:用户id号(uid)、关 键 词(kw)、所属主题(t)、关 键 词因被选中而高亮显示的次数(hlt)、关 键 词被用户圈住的次数(cir)和在该关 键 词下画下划线的次数(udl).

表2中的数据为:文档id(did)、文档所属主题(t)、关 键 词的单击次数(clk)、浏览该文档时间(time)、在该文档中添加书签的数目(bmk)、批注次数(ant).

由于浏览时间受一些客观因素的影响,因此以上时间是修正后的时间.

1.3用户兴趣度的计算

由于用户在浏览网页的过程中有自己固定的爱好和使用方法,因此可以针对不同的用户用不同的权重值来表示用户的不同行为[4].

⑴基于关 键 词的用户兴趣计算

用户行为权重,

,表示用户对某主题下n个关 键 词的行为.两者的乘积定义为:

kw(t)等于bkw*bk(t)等于(kw1,kw2,等,kwn)T

基于关 键 词的用户兴趣度为:

基于文本的用户兴趣度计算方法类同.

2检索模块设计与应用

将用户兴趣应用到检索模块以改善用户体验,同时考虑了其他一些相关因素.

⑴主题相关性.

Lucene排序算法:以关 键 词在文档中出现的次数排序.

⑵关 键 词在文档中的位置.

可以通过关 键 词在文档中出现的位置和频率得出网页或文档的权重值.

⑶用户兴趣.

⑷网页的重要性.

网页重要性的分值可以通过PageRank算法得到[4].

将这四个因素综合考虑,可设计网页的排序算法如下:

Score_f等于d1*luceneScore+d2*PagerankScore+

d3*keyScore+d4*yhxqScore

Score_f:文档f总得分;

luceneScore:主题相关度得分;

PagerankScore:网页重要性得分;

keyScore:关 键 词位置权值得分;

yhxqScore:用户兴趣计算得分;

d1,d2,d3,d4表示权重系数,d1+d2+d3+d4等于1.

3实验

将改进的检索算法与原Lucene检索算法对比查全率,查准率和系统响应时间.其中改进算法的权值设置为d1等于0.35,d2等于0.2,d3等于0.13,d4等于0.32.加大了用户兴趣的得分权值.我们测试的数据量为20万条,得到如下结果:

⑴查全率

估值计算,改进算法得到的结果为n1;Lucene算法得到的结果为n2.

Recall等于n1(n2)/(n1+n2)

⑵查准率

查准率的计算为:

p等于k0/k

k0:正确的数据;k:全部相似数据.

⑶系统响应时间

Lucene基础排序算法平均响应时间在35ms左右,而改进的搜索平均响应时间在46ms左右.

两种检索在三个方面得到的结果对比如表3所示.

4结束语

本文主要改进了垂直搜索引擎的检索模块,在该模块中综合了主题相关度得分、网页重要性得分、用户兴趣计算得分、关 键 词位置权值得分四个方面来计算网页文档得分.特别将用户兴趣得分部分设置了较重的权重值,使得本文的垂直搜索更具有个性化.通过实验证明,该模型从用户的角度提高了搜索质量,改善了用户体验.该模型还存在一定的局限性,在权重值的分配上还需要大量的实验来验证更合理地分配方案,以达到更合理的搜索效果.

相关论文

全文搜索引擎检索帮助的改进建议

本文是一篇数据库论文范文,关于数据库类毕业论文提纲,关于全文搜索引擎检索帮助的改进建议相关毕业论文模板范文。适合数据库及信息检索及搜。

垂直搜索引擎应用

本文是一篇搜索引擎论文范文,搜索引擎方面有关毕业论文题目,关于垂直搜索引擎应用相关毕业论文题目范文。适合搜索引擎及网络信息及英语教师。

中文数字学术期刊用户价值模型实证

本文是一篇学术期刊论文范文,关于学术期刊相关本科论文开题报告,关于中文数字学术期刊用户价值模型实证相关毕业论文模板范文。适合学术期刊。