基于hadoop平台的混合推荐系统

时间:2024-03-21 点赞:46897 浏览:92262 作者原创标记本站原创

本文是一篇数据论文范文,数据类有关毕业论文题目,关于基于hadoop平台的混合推荐系统相关开题报告范文。适合数据及参考文献及系统结构方面的的大学硕士和本科毕业论文以及数据相关开题报告范文和职称论文写作参考文献资料下载。

摘 要

随着科技的进步和网络的发展,人们不得不面对海量的信息数据,这些信息一般具有海量性、多态性、异构性、动态性、无结构化等特性.本文主要研究各种主流的推荐算法的优缺点,并在工程上设计推荐引擎组合.在对Hadoop平台上的分布式文件系统HDFS和计算模型Map/Reduce进行深入分析和研究的基础上,给出基于Hadoop平台的云计算混合推荐系统.

【关 键 词】云计算HadoopHDFap/Reduce混合推荐系统

1引言

推荐系统的设计与实现也面临这样的问题,现有的许多用户数据都是从网站日志里来获取,而对于流量非常之大的电子商务网站来说,数据量是非常之大的.而通常用户信息以及商品数据如果使用单机进行处理,那是不可完成的任务.所以推荐系统中算法以及数据的存储都需要分布式框架来进行处理.目前出现的大数据处理框架当中,Hadoop毫无疑问是最流行的框架之一,HDFS分布式存储框架以及MapRedu.

2Hadoop平台研究

Hadoop是一个分布式系统基础架构,是一个可以更容易开发和运行处理大规模数据的软件平台.Hadoop实现了一个分布式文件系统(HadoopDistributedFileSystem),简称HDFS.HDFS有着高容错性(fault-tolerent)的特点,并且设计用来部署在低廉的(low-cost)硬件上.而且它提供高传输率(highthroughput)来访问应用程序的数据,适合那些有着超大数据集(largedataset)的应用程序.HDFS放宽了(relax)POSIX的要求(requirements)这样可以流的形式访问(streamingaccess)文件系统中的数据.

HDFS是采用主从架构模式的.在HDFS中有两种节点:一个名字节点(namenode)和多个数据节点(datanode).

名字节点负责管理文件系统的命名空间,维护着文件系统结构树和其中的所有文件和索引目录.另外,名字节点还记录着每个文件的每个数据块所在的数据节点的位置,这些信息会随着每次系统启动时重新建立.客户端用户通过访问名字节点,获得所需数据在相应的数据节点的位置来访问整个文件系统.所以用户在编程时不需要知道名字节点和数据节点及其所在位置.

3推荐算法的混合

由于各种推荐方法都有优缺点,所以在实际中,组合推荐(HybridRemendation)经常被采用.研究和应用最多的是内容推荐和协同过滤推荐的组合.


4基于Hadoop平台的混合推荐系统的设计

整个系统是基于Hadoop实现的,Hadoop是一个分布式的大数据计算系统,主要由Mster阶段和DataNode节点构成,Master节点负责管理整个整个分布式系统包括MapRedcue任务的计算以及Hadoop分布式文件系统的元数据管理(通常都是交由Master管理,也可以另外设定),而DataNode负责存储数据以及Map任务以及Reduce任务的计算.Hadoop的工作机制和在第三章已经有相似的阐述.其他的工作模块是依赖于Hadoop来实现的,如图5-6所示.每个模块在启动数据处理和数据访问(获取HDFS或者HBase的数据)的时候都首先向Master请求,并在Master处理请求之后和DataNode进行交互.

推荐引擎内部的算法通常都是面对大数据量并且算法可以进行切分并行计算,将算法以Map和Reduce方式进行切割,并且设计好key和value.对于算法的相似设计会在推荐系统的实现部分根据具体算法进行描述.对Hadoop的使用通常都使用Hadoop封装好的client程序包来进行调用.由client向Master进行请求,然后根据数据切分Map任务,把各个Map任务分配到不同的节点上运行,运行完之后reduce任务把相应的数据结果拉去过来继续计算.完成之后生成最终的结果.

5结语

对于基于Hadoop的推荐系统的设计,使用了软件设计模式的一些思想来对设计进行指导.比如使用了策略模式,工厂模式等等.这些主要在算法的实现部分有阐述.另外整个系统是进行分层设计的.

在实现部分,论文着重阐述了数据预处理模块的实现,以及推荐引擎的实现,并是运用了策略模式来实现推荐引擎的可扩展.本论文还详细描述了各个推荐引擎的实现.

论文还可以朝以下几个方面进行探索和研究:

(1)系统的冷启动,在这方面可以使用用户的注册数据以及商品的数据使用基于内容的推荐系统进行推荐.但需要研究具体的实现.

(2)为用户做推荐的时候没有将实时性考虑进去,后续的研究工作当中会着重研究如何根据提取日志数据来对实时性进行考虑.

相关论文

电子商务个性化智能推荐系统

本文是一篇电子商务论文范文,电子商务方面专升本毕业论文开题报告,关于电子商务个性化智能推荐系统相关学年毕业论文范文。适合电子商务及自。

运用Dokeos2.0平台构建学生签到系统

本论文为关于管理系统方面期刊论文格式,关于运用Dokeos2 0平台构建学生签到系统相关在职研究生毕业论文,可用于管理系统论文写作研究的大学。

推荐系统交互性综述

本文是一篇用户论文范文,用户类在职研究生毕业论文,关于推荐系统交互性综述相关毕业论文参考文献格式范文。适合用户及系统及电子商务方面的。

基于JaWeb平台的科研管理系统设计

该文为数据库方面有关本科论文范文,与基于JaWeb平台的科研管理系统设计相关论文的标准格式,可作为论文格式专业数据库论文写作研究的大学硕。

基于XBRL技术平台的税务稽查系统

关于财务报告及纳税申报及数据库方面的免费优秀学术论文范文,财务报告有关会计学研究生论文,关于基于XBRL技术平台的税务稽查系统相关论文。

基于Web挖掘的个性化教学推荐系统

本论文是一篇风格方面本科论文摘要,关于基于Web挖掘的个性化教学推荐系统相关专升本毕业论文范文。免费优秀的关于风格及算法及习惯方面论文。