垂直搜索引擎应用-turnitin查重

本文是一篇搜索引擎论文范文,搜索引擎方面有关毕业论文题目,关于垂直搜索引擎应用相关毕业论文题目范文。适合搜索引擎及网络信息及英语教师方面的的大学硕士和本科毕业论文以及搜索引擎相关开题报告范文和职称论文写作参考文献资料下载。

摘要:垂直搜索引擎是面向某一特定领域的专业搜索引擎.简要分析了通用搜索引擎的局限、垂直搜索引擎的优势及其关键技术.

关键词 :搜索引擎,垂直搜索,信息检索

中图分类号:TB

文献标识码:A

文章编号:1672-3198(2010)04-0285-01

1.通用搜索引擎

网络的发展极大地影响了我们的生活,它让我们更容易获取信息的同时,也彻头彻尾地将我们陷入了无边无际的信息海洋之中.每时每刻我们都要自觉或不自觉,被动或主动地面对数十亿页面的网络信息,想找到自己需要的信息简直就是“大海捞针”.搜索引擎的横空出世让我们有了探索信息海洋的指南针.随着技术的进步,这个指南针的功能也越来越强大,使用并接受它的人也越来越多.

需要注意的是,虽然现代搜索引擎已经取得了很大的成功,但是它仍然存在很多不足之处,主要表现如下:

首先,覆盖率低.基于Web自身的特点,大量的数据分布在数以亿计页面的互联网上,检索起来十分困难,而单个搜索引擎的覆盖率一般都低于30%,很难索引到所有的Web资源.

其次,时效性差.网络信息呈指数增长,大量信息的存活期却在缩短,这导致搜索引擎的时效性难以保证,返回结果中存在大量“错”链接和“死” 链接.

再者,查准率低.一次搜索的结果可能有成千上万条,而在这庞大的信息中,有用信息只是其中的一小部分,可谓“冰山一角”,并且常常有收到和下载的信息难以消化的情况.

最后,过于死板.现有的搜索引擎多采用关键词的机械式匹配.没有考虑到用户的个体差异,不能满足用户的个性化需求.这种方式的缺点是参与匹配的只有字符的外在表现形式,而非它们所表达的概念.因此,经常出现答非所问、检索不全的结果.

2.垂直搜索引擎

2.1 垂直搜索引擎的优势

由于Web上的信息更加细化和专业,人们有时只关心特定领域、特定范围内的信息,而Google、Baidu等通用搜索引擎却只能提供范围很大但信息却不完整的检索服务,比如求职者在百度中搜索“招聘英语教师”,会有部分的英语教师职位,但是结果中很多职位都已经过期,有的甚至是一年前甚至更久的职位信息,对于招聘这样的时效性非常高的信息,百度这样的搜索引擎明显不能满足用户需求.因此,用户需求和市场服务间的巨大反差产生了强大的“搜索噪音,人们呼唤更有针对性的搜索引擎,垂直搜索引擎应运而生.

垂直搜索是针对某一行业的专业搜索引擎,是搜索引擎的细化和延伸,是对网页库内的某类专门的信息进行一次整合,定向分字段抽取出需要的数据进行处理后再以某种形式返回给用户.相对于通用搜索引擎的信息量大、查询不准确、深度不够等局限性,它是针对某一特定人群、某一特定领域或某一特定需求提供的有一定价值的信息和相关服务.其特点就是“专、精、深”,且具有行业色彩.因此,近几年垂直搜索引擎迅速发展,如面向医药行业的中国用药安全网、房产行业的搜房网、IT行业的赛迪网等垂直搜索引擎层出不穷,有权威人士认为,垂直搜索引擎将是未来主流的搜索引擎系统.

2.2 垂直搜索引擎的关键技术

2.2.1 网络爬虫技术

网络爬虫即Web Spider,它是一个自动抓取网页的程序,为搜索引擎从互联网上爬取网页,是搜索引擎的重要组成部分.

传统爬虫从一个或若干初始网页的URL开始,获得初始网页上的URL,在抓取网页的过程中,不断从当前页面上抽取新的URL放入队列,直到满足系统的一定条件才停止.垂直搜索爬虫的工作流程就比较复杂,需要根据一定的网页分析算法过滤掉与主题无关的链接,保留有用的链接并将其放入等待抓取的URL队列.然后,根据一定的搜索策略从队列中选择下一步要抓取的网页URL,并重复上述过程,直到达到系统的某一条件时停止.在抓取网页时,网络爬虫一般有两种策略:广度优先和深度优先.广度优先是指网络爬虫会先抓取起始网页中所有的链接网页,然后再选择其中的一个链接网页,继续抓取在此网页中链接的所有网页.这是最常用的方式,因为这个方法可以让网络爬虫并行处理,提高其抓取速度.深度优先是指网络爬虫从起始页开始,一个链接一个链接地跟踪下去,处理完这条线路之后再转入下一起始页,继续跟踪链接.这一方法的优点是网络爬虫在设计时比较容易.

另外,所有被爬虫抓取的网页将会被系统存储,进行一定的分析、过滤,并建立索引.搜索引擎建立网页索引时,处理的对象是文本文件.而对于网络爬虫来说,其抓取的对象有多种格式,如、图片、doc、pdf、多媒体等.这些文件被抓取后,需要把其中的文本信息提取出来.准确的提取这些文档信息,一是对搜索的准确性有重要作用,二是对网络爬虫正确跟踪其它链接也有一定的影响.网络爬虫在搜索引擎中占有重要的位置,对搜索引擎的查准、查全都有影响,决定了搜索引擎数据容量的大小.同时,它的好坏还直接影响到搜索结果页中死链接的个数.

2.2.2 网页信息抽取技术

Web信息抽取是将Web作为信息源的一类,从Web页面中所包含的无结构或半结构的信息中识别用户感兴趣的信息,并将其转化为更为结构化,语义更为清晰的格式.输入信息抽取系统的是原始文本,输出的是固定格式的信息点,这样就为用户在Web中查询数据、应用程序直接利用Web中的数据提供便利.

现有的Web信息抽取方法有:(1)基于自然语言处理的方式:具体说来就是把文本分割成多个句子,对每个句子的句子成分进行标记,然后将分析好的句子语法结构和事先的语言规则匹配,获得句子的内容即抽取信息,规则可由人工编制,也可自动学习获取.(2)基于包装器归纳的方式:主要是用归纳式学习方法生成抽取规则.用户在一系列网页中标记出需要抽取的数据,系统在这些例子的基础上归纳出规则.这些规则精确度的高低取决于例子的质量如何.如果能代表那些需要处理的网页,这些例子就是高质量的.(3)基于HTML结构的信息抽取:它的特点是,根据Web页面的结构定位信息.在信息抽取前通过解析器将Web文档解析成语法树,通过自动或半自动的方式产生抽取规则,把信息抽取转化为对语法树的操作来实现信息抽取.

随着电子技术与电子商务的发展和应用,Web半结构化数据的抽取技术具有越来越重要的理论和现实意义.

2.2.3 中文分词技术

在Web应用中,文本处理的速度往往是性能的关键,快速分词具有很大的现实意义.Web文本分词是Web信息处理的基础,如信息检索、摘要形成、网页过滤等都需要对Web文本进行分词处理.Web文本的正文主要是由英文和中文构成,由于英文的单词与单词之间有空格,所以不存在分词问题.而中文的每一句中词与词之间是没有空格的,因而必须采用某种技术将其分开.

对于中文网页,首要的就是进行中文分词,这样才能便于索引文件的建立.分词的准确性对搜索引擎来说十分重要,但如果分词速度太慢,即使准确性再高,对于搜索引擎来说也是不可用的.因为搜索引擎需要处理数以亿计的网页,如果分词时过长,便会严重影响搜索引擎内容更新的速度.这就需要在分词速度与准确度之间找到一个折中.另外在现实网络世界中新词层出不穷,有的又是昙花一现,有效地识别网络新词汇也是一个难题.而垂直搜索引擎的词典也需要行业特色,比如医学搜索就需要包括医学专用词汇.

分词的方法很多,基本上分为两类:第一类是基于字符串的匹配:将汉字串与一个机器词典中的词条进行匹配,若在词典中找到某个字符串,则匹配成功.主要有正向最大匹配法、逆向最大匹配法、最少切分等方法.第二类是基于统计的方法:从概率角度出发,单字出现在词汇中联合概率是比较大的,因此当相邻的字越常出现,则越有可能是一个词.基于上述引,对处理的材料进行分析,得到相应的单字出现的概率,然后对相邻的字出现概率进行统计,若远大于单字出现的概率之和,则可能成为一个词.实际应用中,统计分词方法都是与字典结合着来使用的,这样既发挥匹配分词的切分速度快、效率高的特点,对利用了无词典结合上下文识别生词,并能消除歧义等优点.

3.结语

垂直搜索引擎因针对性强、目标明确和查准率高而成为获取专业信息的重要工具,也是目前信息市场和用户需求的共同呼唤,其作用和功能是通用搜索引擎不可替代的.可以预见,垂直搜索引擎将会更加流行,同时对人们网络生活的方方面面也将产生更为深刻的影响.

垂直搜索引擎应用

相关论文

高校就业信息平台的垂直搜索引擎实现

基于Lucene.net的档案垂直搜索引擎的实现

试比较垂直搜索引擎和传统的搜索引擎

用户兴趣模型在垂直搜索引擎检索模块中的应用

基于马尔可夫混合模型的电子商务搜索引擎用户行为聚类

垂直电商高估值假象?

决胜搜索引擎

怎样熟练的学术搜索引擎

阻断乙肝妊娠患者母婴垂直传播的进展

推荐栏目

热门阅读