基于数据中心模式的多网站数据挖掘技术

时间:2024-02-14 点赞:46792 浏览:93351 作者原创标记本站原创

该文是电子商务专业电子商务论文范文,主要论述了电子商务类有关学年毕业论文,与基于数据中心模式的多网站数据挖掘技术相关论文范文检索,适合电子商务及电子商务网站及数据库方面的的大学硕士和本科毕业论文以及电子商务相关开题报告范文和职称论文写作参考文献资料下载。

摘 要 :随着互联网的快速发展,Web上的数据飞速增长.面对海量的数据,如何从中找出有价值的信息,运用到商业决策的制定中,已经成为越来越多的人关心的课题.该文主要介绍了web数据挖掘的概念和分类,论述了在电子商务中web挖掘的过程和方法,揭示了数据挖掘在电子商务中广泛的应用前景.论文实现了一个面向多电子商务平台的数据挖掘系统,系统面对多电子商务平台,实现了统一的数据收集和预处理过程,对用户的访问日志进行分析,从网站、商品类别、商品等角度进行数据分析,并又对用户的访问数据进行挖掘,从这些数据中发现潜在的规律,把握用户动态,帮助企业制定商业决策,使电子商务更具个性化和针对性.

关 键 词 :数据挖掘;Web挖掘;电子商务系统;用户兴趣分析

中图分类号:TP311 文献标识码:A 文章编号:1009-3044(2013)31-6948-03

现今,随着网络技术和数据库技术的迅猛发展,有效推动了商务活动由传统活动向电子商务变革.随着商务活动活动的电子化、数字化和网络化,如何从这些大量的数据中找出有利于商业运作、提高竞争力和为访问客户提供更多更优质的服务的信息,成为电子商务成败的关键因素,越来越受到电子商务经营者的高度关注,这也对计算机数据技术提出了新的要求.数据挖掘技术应运而生,它是一种能够从网上获取大量数据,并能有效地提取有用信息供企业决策者分析参考,以便科学合理制定和调整营销策略,为客户提供动态、个性化、高效率服务的全新技术.

1.Web数据挖掘技术及其在电子商务中的应用

Web数据挖掘[1],即Web挖掘,它是指从Web资源上抽取信息或知识的过程,它将传统的数据挖掘思想和方法应用于Web之上,从Web文档和Web活动中抽取感兴趣的、潜在的、有用的模式和隐藏信息.它以从Web上挖掘有用知识为目标,以数据挖掘、文本挖掘、多媒体挖掘为基础,并综合运用计算机网络、数据库与数据仓储、人工智能、信息检索、可视化、自然语言理解等技术,将传统的数据挖掘技术与Web结合起来.建立在对大量的网络数据进行分析的基础上,采Web数据挖掘用相应的数据挖掘算法,在具体的应用模型上进行数据的提取、数据筛选、数据转换、数据挖掘和模式分析,最后做出归纳性的推理、预测客户的个性化行为以及用户习惯,从而帮助进行对网站以及网页的改进.

Web挖掘是数据挖掘技术在Web环境下的应用,是集Web技术、数据挖掘、计算机技术、信息科学等多个领域的一项新技术[2].目前,随着电子商务网站的兴起,经过分析一定时期内站点上的用户的访问信息,发现该商务站点上潜在的客户群体、相关页面、聚类客户等数据信息,对各种商业领域具有重要的实用价值,因而,电子商务必将是未来Web数据挖掘的主攻方向.Web数据挖掘技术在电子商务中的应用主要包含以下几方面:(1)寻找潜在客户;(2)留住访问客户;(3)提供营销策略参考;(4)完善商务网站设计.

2.Web数据挖掘的过程和方法

根据Web数据挖掘的方法,Web数据挖掘的一般流程[3]分为:数据收集(采集)、数据预处理、模式发现、模式分析四个步骤.

Step1:数据收集(采集),从客户端、服务端或者是代理网站端获取数据.数据收集的对象以文本形式存在的,数据是粗糙、未经处理的,比如Web日志;

Step2:数据预处理,通过数据清洗,数据格式化对收集海量数据中的有用数据进行筛选,供下一步数据挖掘和分析;

Step3:模式发现,对预处理后的数据进行分析和挖掘,发现数据中存在的模式.

Step4:模式分析,针对发现的模式进行分析,提取其中有用的信息.得出的结果可以应用到制定商业决策或优化网站结构中.

3.数据收集和预处理模式的改进

3.1 传统的数据收集和预处理模式

传统的数据收集模式,获取的日志格式取决于各网站所使用的服务器日志格式,或者用户自定义的日志格式.这就导致获取的多个Web服务器日志文件的异构性,即记录的格式不同,内容排版也不同,无形中增加了数据收集的难度.

传统的数据预处理模式也存在相同的问题.由于数据的来源网站可能是多个,不同网站的网站路径结构都不一样,这导致大多数数据挖掘系统预处理后的信息只局限于来源url,访问url,访问的文档列表,流量等信息,无法得到化的信息,如用户点击了哪个商品类别等.

3.2 基于数据中心的数据收集和预处理模式

数据中心[4]是集数据收集、预处理、分析为一体的统一式数据管理中心系统,客户端只需要调用统一的数据中心接口,即可传递必需的数据,由数据中心统一的记录到日志文件中.因为数据都是有数据中心服务器的日志系统进行记录的,这样做就屏蔽了传统数据收集模式中,由于各个网站的日志记录格式不同,需要区别对待区别处理的问题.

在数据中心,将所有的网站的路径结构都抽象成了三层的目录结构,即应用系统层(例如淘宝)、模块层(例如数码这个类别)和资源层(例如iphone这个商品).对每一层的目录,都使用一张表来进行维护.

比如对淘宝商城的路径结构进行抽象,应用系统层对应淘宝,code是taobao,数码这个类别对应模块层,code是digital,具体的产品,比如“iphone”,对应资源层,code是“iphone”.假设淘宝原来的商品“iphone”的查看页面路径是A,在数据中心配置该路径的映射路径B,也就是将上面的code组合起来,即三层目录结构taobao/digital/iphone.通过抽取每层的code和数据中心表中记录的应用程序、模块和资源进行对比,网站就可以得到用户访问了哪个模块或资源,解决了传统的数据预处理过程无法得到化信息的问题.

4.用户兴趣度算法

5.电子商务网站日志挖掘系统的设计与实现 5.1 电子商务网站中的Web数据挖掘对象

在电子商务网站中,Web数据挖掘的对象一般有用户的访问日志、用户的查询信息以及查询记录的数据.在本次的系统实现中,主要是对用户的访问日志进行挖掘.

5.2 Web挖掘系统的实现

1) 数据收集模块

以Web服务器的日志文件作为电子商务数据挖掘的数据源.其中,Web服务器的日志文件使用Web服务器自身提供的记录功能及规则,按照约定的或者自定义的格式进行数据收集.

2) 数据预处理模块

系统通过将收集到的日志进行数据清理、数据识别两个步骤对原有的Web日志文件进行预处理工作.

Step1:数据清理,根据挖掘的需要,去掉日志中无关的信息.

Step2:数据识别,根据服务端数据库存储的用户信息、应用信息、商品类别和商品信息,来对Web服务器日志中记录的信息进行匹配,将日志中的信息转换成可理解的,可被分析的数据.例如,在数据库中存储的商品类别表有一个类别“衣服”,它的url标识是“cloth”,所以系统会在访问信息的url查找cloth这个字串,找到了则会将此条信息和“衣服”类别进行联系,如此对所有的访问信息进行处理.最系统后会将这些信息处理成可被数据库识别的sql语句.

3) 数据分析模块

系统从多个角度分别对网站、商品类别、商品、用户、广告进行全面的数据分析,得出有价值的信息,比如网站全年的访问人数、商品的访问量排名、广告的点击率等等,并将这些分析的结果以图表的方式显示在页面上,方便查看.同时为后面的模式发现模块提供更多的挖掘维度和分析数据,更快的进行模式发现过程,如图1所示.

6.结论

Web数据挖掘是数据挖掘中很重要的一个领域,在电子商务中应用Web数据挖掘技术,可以为商务网站更准确、更有效的确认目标市场、制定商业决策、提高企业竞争力提供帮助,通过数据挖掘,商家还可以得到用于特定的消费群体进行定向营销的决策信息.论文研究并实现了一个电子商务网站日志挖掘系统,通过对传统的数据收集和预处理过程进行改进,对Web服务器日志进行了多角度的数据分析,对网站、商品类别、商品、用户、广告进行全面的数据分析,得出有价值的信息.

相关论文

临床医学中数据挖掘技术的运用

此文是一篇临床医学论文范文,临床医学有关论文范文,与临床医学中数据挖掘技术的运用相关毕业论文参考文献格式。适合不知如何写临床医学及数。

用户关系管理中数据挖掘技术的应用

本论文为关于数据库毕业论文格式范文,关于用户关系管理中数据挖掘技术的应用相关毕业论文,可用于数据库论文写作研究的大学硕士与本科毕业。

软件工程数据挖掘技术

本文是一篇软件工程论文范文,关于软件工程电大毕业论文,关于软件工程数据挖掘技术相关研究生毕业论文开题报告范文。适合软件工程及软件开发。

软件工程中数据挖掘技术的应用

该文为数据类有关学年毕业论文范文,与软件工程中数据挖掘技术的应用相关学术论文集前言,可作为论文前言专业数据论文写作研究的大学硕士与。

电子商务中的数据挖掘技术

本文是一篇电子商务论文范文,电子商务方面有关学士学位论文,关于电子商务中的数据挖掘技术相关函授毕业论文范文。适合电子商务及数据库及技。

数据挖掘技术在高校图书馆中的应用

本文关于图书馆及数据库及学术性方面的免费优秀学术论文范文,图书馆方面论文范文集,与数据挖掘技术在高校图书馆中的应用相关毕业论文题目。