WEB就业信息抽取技术

时间:2024-02-29 点赞:45812 浏览:88273 作者原创标记本站原创

本文是一篇网络信息论文范文,网络信息相关硕士毕业论文,关于WEB就业信息抽取技术相关函授毕业论文范文。适合网络信息及表格及信息方面的的大学硕士和本科毕业论文以及网络信息相关开题报告范文和职称论文写作参考文献资料下载。

摘 要:随着Inter的快速发展,网络已成为人们查询信息的重要渠道.Web作为巨大的数据源,从Web中提取知识是当前研究的热点之一.在这些海量信息中,大多都是基于HTML的.该文提出一种基于HTML结构的Web就业信息抽取模型.

关 键 词:信息抽取;HTML;就业信息;WEB表格

中图分类号:TP391文献标识码:A文章编号:1009-3044(2013)10-2298-03

1概述

随着Inter的快速发展,互联网正在快速渗透到人们的日常生活中,网络已成为人们获取信息的主要渠道之一.网络有信息量大和使用方便快捷的特点,在当前严峻的就业形势下,成为人们了解就业信息的重要手段.因此面对如此浩大混杂的网络信息海洋,研究怎样从就业信息发布网站中抽取出有用的信息,十分有意义.

在这些网络信息中,大多都是使用HTML表示的,也就是说现阶段的Web网页大部分是采用超文本标记语言HTML(HypertextMarkupLanguage)进行描述的.HTML是半结构化的,这种语言用定义好的标签来组织信息,用户看到的网络信息就是经过浏览器解析HTML形成的.然而,HTML在语法限制上并不严格,语义也不清晰,页面内部还加入了Jascript脚本语言,人们想要从网页中快速准确的获得有用的信息十分困难.

目前基于HTML结构的信息抽取,对需要抽取的信息点定位的依据是Web页面的结构特征.通过将页面文档解析为语法树并对其学习产生抽取规则,把信息抽取过程转化为操作语法树来实现信息的抽取.目前比较具有代表性的系统有Wrap、W4F、LIXTO和RoadRunner.

2信息抽取模型

我们发现此类网站的页面结构比较简单和统一,就业信息在页面中都是用Table表格作为表达方式集中起来.因此,我们将对此类网站信息提取的研究重点主要放在对Web页中表格信息抽取的研究上.

具体来说,我们将Web中的表格分为以下两类:

1)假表格:其作用是布局网页结构和美化页面的,里面不包含我们需要的数据信息,在这些表格中一般都包含大量图片、广告或链接等内容,我们叫它假表格.但是也不排除假表格中包含数据信息,比如,我们要抽取出表格中包含的就业信息.在同一页面中,可能同时存在另外一张表格,其中包含价格的信息.虽然表格中的价格也是数据信息,但并非我们所需要的,这种表格我们也称它为假表格.

页面清洗解析:对获得的WEB页进行代码过滤、页面清洗,将HTML文档转化成结构化的、语法要求严格的文档,这里指符合XML标准格式的文档.然后根据文档对象模型,HTML文档被解析后,转化为DOM树.DOM树的每个结点是一个对象.DOM模型描述了文档的结构,利用对象的方法和属性,可以方便地访问、添加和删除DOM树的结点和内容.

表格定位:定位出真正包含用户感兴趣信息的真表格,过滤掉假表格.

信息抽取:识别表格内容并提取信息.

3数据抽取实现

3.1页面清洗解析

3.2WEB表格定位


在HTML页面中,数据表格指的是用来组织和显示数据信息的和标签中的区域.它的特点是:清晰、简洁、逻辑性和对比性强,这些表格中有些包含用户感兴趣的信息,对于我们的研究来说,属于“真表格”.这种表格是我们要进行信息抽取的对象.非数据表格是指被用来进行页面布局的区域,能达到美化页面的效果,在我们的研究中,属于噪音信息,我们称之为“假表格”.我们要定位出真正包含用户感兴趣信息的真表格,过滤掉假表格.

根据以上提出的规则在WEB就业信息网页中我们可以定位“真表格”的位置,这部分表格经过HTMLParser的解析得到了较好的结果.我们可以到这些单元格之间的行列关系并很好地抽取出表格中的每个单元格数据.

图3提取出的表格信息

4总结

本文研究的Web就业信息抽取的技术虽在一定程度上解决了就业信息的抽取困难,但在许多方面仍存在不足,需进一步研究.首先是在文档页面结构较为复杂的时候,抽取的准确率会降低,因此,需要进一步研究加强抽取规则的通用性;其次,本研究主要针对Web上的就业信息抽取,对其他信息点抽取还不具有通用性.

相关论文

中小企业电子信息安全技术

该文是电子商务专业信息安全论文范文,主要论述了信息安全方面毕业论文,与中小企业电子信息安全技术相关论文范文资料,适合信息安全及电子。

移动通信信息安全技术

本文是一篇移动通信论文范文,关于移动通信自考毕业论文开题报告,关于移动通信信息安全技术相关毕业论文参考文献格式范文。适合移动通信及通。

隐秘通信中信息隐藏技术的应用

本文关于通信技术及隐秘及互联网方面的免费优秀学术论文范文,关于通信技术类论文范文检索,与隐秘通信中信息隐藏技术的应用相关毕业论文模。

农民工就业信息服务工具的设计

本文是一篇农民工论文范文,农民工有关本科毕业论文,关于农民工就业信息服务工具的设计相关在职研究生毕业论文范文。适合农民工及工具及信息。

网络与信息安全技术的重要性前景

本论文为关于网络物流电子商务论文,关于网络与信息安全技术的重要性前景相关毕业论文格式范文,可用于网络论文写作研究的大学硕士与本科毕。

电子信息安全技术

本文是一篇电子信息论文范文,电子信息方面有关专升本毕业论文开题报告,关于电子信息安全技术相关学年毕业论文范文。适合电子信息及信息安全。