面向主题的信息检索

时间:2024-03-24 点赞:49377 浏览:97781 作者原创标记本站原创

本文是一篇互联网论文范文,互联网类有关在职研究生毕业论文,关于面向主题的信息检索相关专升本毕业论文范文。适合互联网及信息检索及数据库方面的的大学硕士和本科毕业论文以及互联网相关开题报告范文和职称论文写作参考文献资料下载。

摘 要:随着互联网业务的蓬勃发展,互联网上的信息也随之迅速膨胀.在这纷繁的数据海洋中,如何准确而有效地检索用户想要的有用的信息成为当今研究的热点.为解决通用搜索引擎存在的一些不足,设计了面向主题的信息检索系统.此系统能高效地检索并返回主题信息,帮助用户更精确、更快速地找到有用信息.

关 键 词:信息检索;爬行器;主题

中图分类号:TP393.094文献标识码:ADOI:10.3969/j.issn.1003-6970.2013.06.046

0引言

随着互联网的发展,网上的信息越来越丰富,互联网成为人们获取相关信息的主要途径之一.但是,随着应用的深入,一些问题也暴露出来,当前的搜索引擎都是通用的搜索引擎,就是说基本上都是面向所有用户的.无法满足用户的个性化需求,面向主题的搜索应运而生,逐渐成为信息检索的研究重点领域.

主题爬行最早由De.Bra[1]提出的,研究者通过分类的方法来判断网页的相关性.M.Hersovici等人[2]在此方法的基础上进行了扩展,综合计算网页以及锚文本的相关度.同时,对页面中的URLs依据优先权进行排序,然后乘上一个系数以平衡上级页面的相关性.与De.Bra的研究相比,这个方面通过SVM模型实现,向量的分量的取值在0和1之间,同时,在计算相关度是考虑了锚文本和上下文的信息.J.Cho[3]等人在爬行策略宽度优先算法上进行了优化,虽然改进不大,但是这个研究在度量URLs的分值时引入了PageRank[4]方法.


1实验系统的结构

实验系统主要功能是提供网页信息的采集、解析、检索功能.该系统对解析后的文本信息进行处理,建立文本信息的主题概念索引用于检索,实验系统的总体功能框架是建立在主题网络爬虫从网络上采集并进行初步分类的网页数据库基础上.

2验结果与分析

本研究采用检索结果与百度的搜索结果来进行比较.把查询输入到百度中来检索,把百度的检索结果的前50个链接下载下来,以此作为系统的数据集.然后把本系统的检索结果与百度的前10个结果或前20个结果进行比较.由于这里是进行实验分析,在结果显示中url用网页的DocId表示.

从图1的检索结果看,检索花费了16毫秒.在百度的检索结果中,排在第4和第6的结果与主题关联性不好.由于本研究引入了主题信息,因此在检索结果中与主题高度相关的链接都排在了前面.

通过对实验结果的分析表明通过引入主题信息的爬行器与通用爬行器相比,相关网页的数量有了显著的提高,从而提高的检索的效果.

3结束语

本章介绍了面向主题的信息检索系统的检索部分的设计和实现.在实验中以通用搜索引擎作为对比.通过实验结果可以看出,面向主题的检索系统能够得到更相关的检索结果.

相关论文

微博信息检索中的关键问题

本文是一篇信息检索论文范文,信息检索类有关学士学位论文,关于微博信息检索中的关键问题相关本科毕业论文范文。适合信息检索及地理信息及信。

信息检索利用

这是一篇关于信息检索毕业论文格式范文,与信息检索利用相关电大毕业论文。是参考文献专业与信息检索及图书馆及数据库方面相关的免费优秀学。

网上购物系统中信息检索性能优化

本文是一篇数据库论文范文,关于数据库在职毕业论文开题报告,关于网上购物系统中信息检索性能优化相关毕业论文格式模板范文。适合数据库及缓。

信息检索中的文档表示综述

本文是一篇信息检索论文范文,信息检索相关本科论文开题报告,关于信息检索中的文档表示综述相关毕业论文提纲范文。适合信息检索及特征及方法。

基于本体的语义信息检索系统模型

本文是一篇信息检索论文范文,关于信息检索学士学位论文,关于基于本体的语义信息检索系统模型相关毕业论文提纲范文。适合信息检索及数据库及。

基于Web2.0的信息检索型教学模式设计

本文是一篇信息检索论文范文,关于信息检索类函授毕业论文,关于基于Web2 0的信息检索型教学模式设计相关学士学位论文范文。适合信息检索及大。