用户访问模式挖掘在电子商务中的应用

时间:2024-02-05 点赞:51547 浏览:105759 作者原创标记本站原创

本文关于数据库及电子商务及用户方面的免费优秀学术论文范文,关于数据库论文范文素材,与用户访问模式挖掘在电子商务中的应用相关在职研究生毕业论文范文,对不知道怎么写数据库论文范文课题研究的大学硕士、本科毕业论文开题报告范文和文献综述及职称论文的作为参考文献资料下载。

摘 要 :当今电子商务网站日益增多,网站所提供的功能和服务也越来越丰富,然而也存在不足.比如,提供的服务或信息分布不合理,未能充分考虑到用户的需求;信息的访问路径未能考虑到信息的重要性和普遍关注性等等.本文研究将集中在基于图结构的用户访问模式挖掘及其在电子商务中的应用上,通过对基于Web拓扑结构(图结构)挖掘用户访问模式的数据挖掘,可对已存在的Web站点的结构及站点内的页面进行调整和改善,方便地向浏览模式相似的用户组推荐其感兴趣的主题相似的页面,使各类信息和服务以更有效的方式提供给用户.

关 键 词 :数据挖掘 Web日志挖掘 用户访问模式 Web拓扑结构

一、引言

近几年因特网已经成为一个巨大的、分布广泛的和全球性的信息服务中心,逐渐渗透到人们的日常工作、生活及其它领域,它为用户提供了各种信息.然而,用户面对一堆杂乱无章的信息往往花费了大量的精力却无法找到理想的结果.如何有效得分析用户的需求,帮助用户从因特网的信息海洋中发现他们感兴趣的信息和资源,已经成为一项迫切而重要的课题.解决这些问题的一个途径,就是将传统的数据挖掘技术与Web结合起来,进行Web数据挖掘.其中的Web日志挖掘可以掌握用户在浏览站点时的行为,并且将挖掘出的用户访问模式应用于网站上,在改善Web站点的结构以及页面间的超链接结构,提高站点的服务质量等方面有重要的意义.

二、Web数据挖掘概述

(一)Web数据挖掘的定义及分类

Web数据挖掘我们这里采用一个更一般的定义:Web数据挖掘是指从与WWW相关的资源和行为中抽取感兴趣的、有用的模式和隐含信息.


Web信息的多样性决定了Web挖掘任务的多样性,Web数据挖掘总的来说分为内容挖掘、结构挖掘和日志挖掘三类,如图l所示:

(二)Web日志挖掘

Web日志挖掘也称Web使用挖掘,是指从Web使用数据中抽取用户访问模式的过程.

一般Web日志挖掘的过程分为以下三步:

1.数据准备:对Web日志内容进行预处理,删除无用数据,识别用户会话,完善访问路径.

2.模式识别:采用相应的数据挖掘算法,对预处理之后的数据进行挖掘,生成模式.

3.模式分析:排除模式识别中没有价值的规则或模式,将有价值的模式提取出来.

三、基于图结构的Web日志挖掘

(一)数据准备

1.数据源

目前的Web日志挖掘的数据源主要是Web服务器日志文件,它记录了用户访问站点的数据,每当站点上的页面被访问一次,Web服务器就在日志中增加一条相应的记录.服务器上的日志不仅详细记录了站点访问者的浏览行为,而且汇集了访问同一站点的多个访问者的行为.

2.数据预处理

在Web日志挖掘中,主要分析的数据源是服务器日志,但是由于服务器日志记录的数据并不完整,直接在其上进行挖掘非常困难.因此要对日志数据进行预处理主要包括以下步骤:

数据转换:将原始日志文件导入数据库中.

数据清理:删除与日志分析目的无关的记录.

用户识别:将用户和请求的页面相关联.

会话识别:将用户在一段时间内的请求页面分解成能反映实际浏览习惯的用户会话.

路径补充:将本地或者代理服务器中缓存而没有被日志记录的请求页面增加到会话中.

(二)基于图结构的用户访问模式挖掘

本文中的算法在现有的挖掘关联规则算法的基础上上进行延伸,并且在支持度计算,候选路径的产生和剪除阶段时考虑网站的图结构.这样,在候选集的生成和剪除过程中减少了候选集的数量,可提高发现模式的精确性和效率,并且避免了“交易变质”的问题.首先,分析站点结构,并给出“图”的相关定义和定理.其次,对现有的Web日志挖掘方法进行简单的介绍和分析.接着,给出基于图结构的用户访问模式挖掘算法.

1.站点结构的分析

每个Web网站并不是平面结构,而是有自己的特定结构.我们可将Web结构看作是一个多层的模型,每个层面包含很多页面,这些页面上有很多文本、图片、音乐等页面元素组成,它们可以链接本层面或其他层面的页面元素.

Web可以用一个有向图来表示,G等于(V,E),V是页面的集合,E是页面之间的超链接集合.页面抽象为图中的顶点,而页面之间的超链接抽象为图中的有向边.顶点v的入边表示对v的引用,出边表示v引用了其它的页面. 所以Web页面之间的超链接揭示了Web结构.通过对Web结构的分析可对Web数据挖掘有很大的帮助,如图4,某站点拓扑结构示例图.

2.基于图结构的用户访问模式挖掘算法

Web用户访问模式的挖掘过程可描述为:把用户会话序列看成是对图的遍历,结合数据库和Web图结构确定访问的最大向前路径.从中找出支持度大于阈值的所有子路径即频繁遍历路径,最后确定最大频繁遍历路径.基于图结构的用户访问模式的挖掘和现有方法最大的不同是,访问模式也被认为是图遍历,而不是二叉树访问顺序,即用户会话序列是图中的路径.

(1)生成最大向前路径

Web用户访问模式的挖掘过程的第一步是把用户会话序列看成是对图的遍历,结合数据库和Web图结构确定访问的最大向前路径.所谓最大向前路径(MFP)是指从起始页开始到回溯发生前,用户连续访问的最大页面序列.

假设代表一个用户会话,代表一个含有潜在MFP的字符串,初值为空,f1ag表明当前的遍历方向是前进还是后退,数据库D存储MFP序列.算法依次对每一个用户会话进行如下操作:

①依次读取页面xi(1≤i≤m).

②若Xi不存在于{y1,等,y-1}中,即xi是没有访问过的页面,则将xi作为yj加入当前可能的MFP中,f1ag标记为前进,转(1).

③否则若xi等于yk(1≤k

如果f1ag标明前进遍历,则将{y1,等,y-1}作为一个M F P输出到最大前向路径集合F中,然后从中删除{yk+1,等,yj-1},并设标志f1ag为向后移动,转(1).

如果flag标明为回退,删除{yk+i,等,yj-1}后转(1).

④当处理到用户会话中的最后一页时,如果f1ag标志仍-标明向前,则此时的{y1,等,yj 1}是该会话中的最后一个MFP.

此算法的形式化描述如下:

for aU Sn∈S //依次处理绘画文件中的每个会话Sn1

y1等于x1;j等于2;i等于2 f1ag等于YES; ////初始化页面序列,将遍历方向设置为前进;

while(i≤m)//循环处理用户会话Sn中每个页面;
{

if(xi等于等于yk)for some 1≤k

(2)挖掘频繁遍历路径

频繁遍历路径是指MFP中满足一定支持度的子路径序列(不是连续页面序列).频繁遍历路径的确定能用像Aprior算法中的逐层搜索算法实现.在算法的每步中,都要扫描数据库,并计算所有的候选集的支持度.每步中的所有候选集都有相同的长度.在每个过程的结束,生成候选集Ck,然后计算Ck中每个候选项的支持度并剪除小于支持度阈值的候选项,以减少下一循环的扫描时间,由此频繁遍历路径集合Lk被确定,并用于在下个步中候选集的计算.算法的一般结构如下.支持度的最小值记为minSupport,Ck表示所有长度为k的候选集,Lk表示所有长度为k的频繁遍历路径的集合,D表示数据库,G表示图.

算法4-逐层搜索确定图G中的频繁遍历路径 尽管逐层搜索算法的基本结构相似于Apriori,但是它的组成部分(i)候选集支持度计算(ii)产生下一阶段的候选集,明显不同于Apriori,因为,该算法中的候选集必须是图中的路径.该算法基于定理4执行Apriori剪除.对于支持度计算(第6,7步),基于子路径的数量.

在图4的例子中,是一条频繁遍历路径,也是用户会话2和4的一条子路径,尽管在用户会话4中,它的顶点是不连续的,但在图5中,它是一条路径.还有,频繁遍历路径不能再延伸,因为如图4所示,它的终结点A只有到顶点B和C的两条弧,并已经包含在这条路径中.频繁遍历路径不能延伸,既不是由于已经包含在路径中的顶点C,也不是由于顶点B,因为不是频繁遍历路径.

四、Web日志挖掘的应用

从Web使用数据中挖掘出的访问模式可以应用到广阔的领域,以下仅介绍在电子商务中的应用.

(一)个性化服务

根据网站用户的访问情况,为用户提供个性化信息服务,这是许多互联网应用,尤其是互联网信息服务或电子商务(网站)所追求的目标.根据用户的访问行为和档案向使用者进行动态的推荐,对许多应用都有很大的吸引力.Web日志挖掘是一个能够出色地完成这个目标的方式.

例如141:SiteHelper可以通过分析每个用户的网页访问情况,了解用户的爱好,并从用户浏览时间较长的网页中抽取出相应关键字,汇总后给用户,获得反馈后,再向用户推荐网站中其他类似或相关网页.又如:WebWatcher“跟踪”用户浏览网页过程,识别用户可能感兴趣的链接,WebWatcher根据用户本人和其他类似用户的浏览情况,对每个新网页进行评估,以帮助用户能够及时地浏览自己感兴趣的网页.

(二)商业智能

有关用户访问网站的行为模式,对于电子商务中的市场人员来说是非常重要的,通过定义Web使用日志的超维数据立方,将Web使用数据与电子商务应用数据有机地结合在一起.这样就可以利用数据挖掘方法与技术来为客户关系管理中的四个重要阶段(吸引顾客,保留顾客,交叉销售,顾客离开)提供决策支持.例如:WebLogMiner可以将Web日志数据转换为超维数据立方的形式以便能够进行OLAP分析处理和数据挖掘工作.在WebLogMiner系统中还使用了关联规则,分类和序列模式分析等数据挖掘方法,得到了电子商务交易行为序列、特征和交易预期的分析.

五、小结

本文运用一种基于Web拓扑结构(图结构)挖掘用户访问模式的方法,区别于常用的基于树形结构的Web路径分析技术,提高了发现模式的精确性和效率.我们给出一个像Aprior那样的逐层搜索算法,得到用户的浏览模式.

相关论文

Web数据挖掘在电子商务中的应用

该文是电子商务专业电子商务论文范文,主要论述了电子商务方面有关研究生毕业论文开题报告,与Web数据挖掘在电子商务中的应用相关论文范文检。

基于O2O模式的移动电子商务

本文是一篇移动电子商务论文范文,关于移动电子商务毕业论文提纲,关于基于O2O模式的移动电子商务相关开题报告范文。适合移动电子商务及互联。

基于O2O商业模式的移动电子商务

本文是一篇移动商务论文范文,移动商务类学士学位论文,关于基于O2O商业模式的移动电子商务相关本科毕业论文范文。适合移动商务及移动电子商。

云计算模式下的电子商务安全

本文是一篇电子商务论文范文,电子商务方面函授毕业论文,关于云计算模式下的电子商务安全相关毕业论文的格式范文。适合电子商务及电子商务企。