基于半监督学习的在线评挖掘应用

时间:2024-02-10 点赞:46214 浏览:90988 作者原创标记本站原创

此文是一篇电子商务网站论文范文,电子商务网站类论文范例,与基于半监督学习的在线评挖掘应用相关在职毕业论文开题报告。适合不知如何写电子商务网站及计算机及网络信息方面的电子商务专业大学硕士和本科毕业论文以及电子商务网站类开题报告范文和职称论文的作为写作参考文献资料下载。

摘 要 :在线评论挖掘是从大量的在线评论数据中挖掘出有用的信息以支持管理决策的过程.本文首先介绍了在线评论挖掘的意义、任务以及半监督学习的基本概念,并给出了半监督学习在在线评论挖掘中的应用模型.

关 键 词 :在线评论挖掘;半监督聚类;半监督分类

中图分类号:TP391.1 文献标识码:A 文章编号:1007-9599 (2012) 20-0000-02

1.绪论

Web2.0 的迅速发展使得越来越多的用户有机会参与网络互动之中,由单纯的网络内容的浏览者,变成了网络内容的创造者.博客、微博、论坛、BBS、讨论组、评论网站等为用户提供了自由发表意见的平台.在电子商务领域中,用户的互动性则主要体现在用户对于已购买产品的在线评论.这些主观性的评论文本反映了用户针对产品或服务的直接用户体验和态度,蕴含着丰富的商业信息,对研究评论者的心理和行为有很大的帮助.

1.1 从消费者的角度来说:可以利用评论挖掘结果了解产品的性能和其他用户的使用体验,为购买决策起到很好的参考作用;电子商务网站对于评论挖掘结果的有效展示可以避免用户迷失在大量的在线评论文本中无法获得有效地信息.

1.2 从生产商的角度来说:生产商可以通过消费者的评论获得消费者的反馈信息,发现潜在的机会和风险,及时的改进产品或服务.另外也可以从竞争对手的产品反馈评论中获取商业情报,增强企业的竞争能力.

1.3 从经销商的角度来说,可以参考产品评论挖掘结果,更好的确定经销产品的范围、种类和数量.

2.在线评论数据的特点

网络评论可以给客户以及生产者,销售者带来有价值的产品信息与服务反馈,产品评论数据的一些特点以及挖掘中存在的问题如下:

2.1 评论数据量过大.随着网络的广泛应用,网络上的客户评论正在飞速地膨胀着.所以要从这些评论中获取准确的信息必须要结合机器,否则人工或者半人工的挖掘过程都是非常难以完成的任务.


2.2 非结构化数据.网络中的非结构化数据的语义获取还是非常困难的,需要人工智能,特别是自然语言处理等多个学科的共同努力.

2.3 更新速度快.不论是数量还是风格,在线评论数据变化很快.传统的机器学习方法中分类技术利用监督型分类,需要语料训练分类器,这样在一些环境和因素下,分类器需要使用更新数据集重新训练,实施具有一定的困难,结果可能不准确.

2.4 获得大量的类别信息成本较高,但是可以以较低的成本获得少量的类别信息.

针对在线评论数据的特点及存在的问题,我们将半监督学习方法应用到在线评论数据挖掘中.

3.半监督学习简介

在机器学习领域中,传统的学习方法主要包括监督学习和无监督学习.半监督学习(Semi-supervised Learning)是近年来模式识别和机器学习领域研究的重点问题,是监督学习与无监督学习相结合的一种学习方法.它主要考虑如何利用少量的标注样本和大量的未标注样本进行训练和分类的问题.半监督学习对于减少标注代价,提高学习性能具有非常重大的实际意义.

3.1 半监督聚类.所谓聚类,是把大量的无标记数据样本聚集成多个类,使同一类中样本的相似性最大,不同类中样本的相似性最小.聚类算法已被广泛应用于计算机视觉、信息检索、数据挖掘等领域.聚类算法在执行过程中不能获得任何关于预先定义的数据项的类别信息,因而通常被看作是一种无监督学习方法.由于没有利用任何关于类别的信息,当所定义的聚类目标函数不适合数据本身时,数据聚类结果将不能令人满意.另外,聚类定义的任意性有可能产生对于实际问题没有任何意义的聚类划分.

尽管对于现实世界问题要获得所有数据的类别信息需要付出相当大的代价,少量样本的类别信息还是比较容易获得的,忽视这些少量样本类别信息将是很大的浪费.半监督聚类充分利用成对约束信息或少量已标记数据指导聚类,同时能够利用大量无标记数据所蕴含的分布信息,获得更好的聚类效果.实验证明,少量信息能够很大程度的改善聚类效果[1-4].

半监督聚类已经被广泛的运用到网页检索和文本分类、医学数据等一系列领域中,在理论和实际研究应用中都获得了长足的发展.

3.2 半监督分类.传统的分类方法属于有监督学习,主要分为两个过程:训练过程和分类过程,通过对已标记样本的训练学习,确定分类器的参数,然后用训练好的分类器对未标记样本进行分类.在训练过程中需要大量的训练样本即已标记样本才能训练出较好的分类器.

半监督分类主要利用少量的标记样本进行训练,然后开拓大量的未标记样本,不断迭代,最终得到一个较为准确的分类器.半监督分类问题目前有三种主要的技术:基于生成式的模型、基于图正则化框架的模型和基于协同训练的模型[5].

4.在线评论挖掘的主要任务

在线评论挖掘就是对互联网上大量的用户主动发表的评论文本,采用自然语言处理技术和数据挖掘方法挖掘出有用的信息以支持决策.一般可分为针对文档、句子、词语三种不同粒度水平.在线评论挖掘分为以下几个子任务[6]:

4.1 产品特征提取.络客户评论中的产品特征挖掘是指通过机器学习方法从大量的网络客户产品评论中自动地获取用户所关注的产品特征信息.

4.2 情感分类.情感分类以客户在互联网上发布的产品评论为研究对象,挖掘客户的情感倾向,从而自动判断该评论的极性,即正面评论或负面评论.通过对大量客户评论的情感分类,可以综合得出这些客户对该种产品或服务的普遍看法.

4.3 可视化.指将评论挖掘的结果以直接、明了的方式展现给用户的过程.

5.基于半监督学习的在线评论数据挖掘模型

基于以上分析,本文给出了一个在线评论数据挖掘模型,主要包括数据收集和预处理、情感分类、产品特征提取和可视化四个模块,具体过程如图1所示. 图1.基于半监督学习的在线评论数据挖掘模型

5.1 数据收集和预处理模块.数据收集过程是指从电子商务网站收集在线评论数据的过程.采集工具选用神采软件工作室出品的《网络神采》共享版,《网络神采》是一套专业的网络信息采集系统,通过灵活的规则可以从任何类型的网站采集信息,如新闻网站、论坛、博客、电子商务网站等等.在互联网数据挖掘、网络信息监控、文件批量下载等方面有着广泛的应用.

文本预处理过程主要包括:在线评论记录的过滤,过滤质量不高的评论,如标题中只有符号没有文字的评论;过滤掉过短的评论(字数小于50),因为过短的评论往往用词比较概括,不包含具体的产品特征,信息含量不大,在产品特征提取过程中可以忽略.对于在线评论集合进行分词和词性标注,采用中国科学院计算机所软件室编写的基于多层隐马尔科夫模型的中文分词工具 ICTCLAS(Institute of Computing Technology,Chinese Lexical Analysis System);对记录进行降维处理,同义词合并,删除停用词等.

5.2 产品特征提取模块.提取静态数据集上的用户关注产品特征:使用半监督聚类算法对预处理后的文本数据集进行聚类,产生多个类别,不同的类别蕴含着不同的产品特征.对聚类的得到的每个类别进行高频词分析,找出这些产品的主要特征,并根据词频的高低区分不同产品特征信息的受关注程度.

提取时间序列数据集上的用户关注产品特征:将半监督聚类算法应用到时间序列的在线评论文本数据集中,从而获得用户关注的产品特征趋势.分析用户关注产品特征随时间变化的趋势,观测用户对于产品特征的兴趣所在,为产品和服务的改进提供参考依据.

5.3 情感分类模块.提取静态数据集上的用户情感倾向:使用半监督分类方法对预处理后的文本数据集进行分类,获得评论集中每条记录的情感极性-正面评论和负面评论,从而获得用户对于产品的整体情感倾向.

提取时间序列数据集上的情感倾向:将半监督聚类方法应用到时间序列在线评论文本数据集上进行情感分类,从而获得用户情感趋势.分析用户情感倾向随时间变化的趋势,监测用户的情感变化,以支持电子商务企业的销售决策.

5.4 可视化模块.可视化模块是指将在线评论挖掘的结果进行直观的展示的过程,以人们惯于接受的图像、图形、表格等形式将挖掘结果表现出来,便于理解和记忆.

针对用户的可视化展示主要包括在电子商务网站上增加在线评论挖掘的展示模块,帮助用户进行更好的购买决策,根据客户需求改变产品展示平台,构建推荐系统,提高商务效率.例如好评率的展示、用户关注特征排序、评论有用性排序等.

针对企业的可视化展示主要是将产品评论挖掘结果以便于支持管理决策的形式展示.例如针对挖掘出的产品特征进行进一步的分析整理,展现层次性的产品结构特征;针对情感分类结果,从绝对数值和相对比例等角度进行情感倾向的图形化展示,便于企业发现潜在的机会和风险,从而帮助他们改进产品、改善服务,获得竞争优势.

相关论文

在线评对营销策略影响的现状展望

关于营销策略及信息及可靠性方面的免费优秀学术论文范文,关于营销策略相关中文核心期刊,关于在线评对营销策略影响的现状展望相关论文范文。

C2C电子商务在线评有效性

本文是一篇电子商务论文范文,关于电子商务方面毕业论文范文,关于C2C电子商务在线评有效性相关专科毕业论文范文。适合电子商务及高质量及电。

电子商务中在线评有用数影响因素

本文是一篇有用论文范文,有用类有关电大毕业论文,关于电子商务中在线评有用数影响因素相关硕士毕业论文范文。适合有用及电子商务及统计分析。

新闻网站如何实现在线评的价值

本文是一篇高质量论文范文,高质量相关在职研究生毕业论文,关于新闻网站如何实现在线评的价值相关毕业论文提纲范文。适合高质量及互联网及用。

远程教育中的网络学习与在线学习

本文是一篇网络学习论文范文,关于网络学习毕业论文的格式,关于远程教育中的网络学习与在线学习相关毕业论文的格式范文。适合网络学习及在线。

也“在线学习”

本文是一篇信息技术论文范文,信息技术相关毕业论文格式范文,关于也“在线学习”相关学士学位论文范文。适合信息技术及中学历史教学及在线学。