基于Spark的抄袭检测云计算框架

时间:2024-03-20 点赞:49040 浏览:98160 作者原创标记本站原创

本文是一篇大学学报论文范文,大学学报有关学年毕业论文,关于基于Spark的抄袭检测云计算框架相关毕业论文参考文献格式范文。适合大学学报及互联网及框架方面的的大学硕士和本科毕业论文以及大学学报相关开题报告范文和职称论文写作参考文献资料下载。

摘 要:抄袭检测从根本上说是一个文本相似度的计算问题,需要迅速准确的在海量文集中对文本的原创性进行检测,耗费大量时间和资源,是计算密集和数据密集的复杂过程.采用分布式计算是是提高检测效率的有有效手段之一.本文提出了一套基于Spark的分布式抄袭检测云计算框架,该框架使用由集群资源管理器ApacheMesos,支持内存驻留的MapReduce计算框架,分布式Hadooop文件系统构成的分布式计算集群.测试结果表明,此框架比Hadooop传统分布式计算框架在效率上有较大提升.

关 键 词:抄袭检测;云计算;Spark

中图分类号:TP18

随着互联网的高速发展,包括搜索引擎、文献资源库、翻译软件的大量涌现,使得诸如学术、学位论文、著作、项目申请书、项目结题报告等文本的抄袭剽窃更易于实现,从而,使得快速准确的判定文本的抄袭剽窃变得尤为重要,已成为一个迫切需要解决的问题.

伴随着云计算技术的快速兴起和大数据时代的来临,抄袭检测将数据处理转移到云计算上去是一种必然的趋势.因此,本文抄袭检测采用了云计算框架MapReduce算法思想,把本来由单个主机单独进行的对海量数据检索的过程,变成由若干台主机分别进行的对部分并行进行处理,并在每个主机完成后再统一收回检测结果.相比传统集群,基于MapReduce抄袭检测云计算框架复杂度较低,成本减少,具有良好的可伸缩性.SparkMapReduce是MapReduce模型的实现之一,它提供的框架自动执行了任务的分解、发送、执行、归并、容错工作,免去了二次开发和专用的分布式调度系统.此外Spark相比Hadooop框架,它能够提供支持数据内存驻留功能,能够显著提高需要迭代计算或者反复读取数据的计算速度.实验结果表明,基于Spark的抄袭检测云计算框架能显著提高检测速度.


1Spark分布式框架简介

Spark是一个基于内存计算的开源的集群计算系统,虽然Spark与Hadoop有相似之处,但它提供了具有有用差异的一个新的集群计算框架.Spark引进了内存集群计算的概念,可在内存集群计算中将数据集缓存在内存中,以缩短访问延迟.HadoopMapReduce框架反复从磁盘读取数据,效率低下.Spark旨在解决上述HadoopMapReduce反复读写文件系统从而效率低下的问题.Spark通过构建弹性分布式数据集RDD结构,支持数据内存驻留,RDD是分布在一组节点中的只读对象集合.这些集合是弹性的,如果数据集一部分丢失,则可以对它们进行重建.重建部分数据集的过程依赖于容错机制.可见,通过引入RDD,MapReduce过程无需将处理结果写回HDFS文件系统,避免多次访问磁盘,大大提高了迭代算法的运行效率.

2基于Spark的抄袭检测框架

本文设计的抄袭检测框架是在Spark分布式系统的基础上,加入了工具组件层,主要内容是一些针对于抄袭检测的自然语言处理工具包,为抄袭检测提供基础技术和工具,在自然语言处理工具包和Spark分布式系统的支持下提供抄袭检测云服务,框架图如下图所示:

图1

框架由以下几个部分组成:

2.1弹性分布式数据集(RDD):RDD是分布在一组节点中的只读对象集合.这些集合是弹性的,如果数据集一部分丢失,则可以对它们进行重建.重建部分数据集的过程依赖于容错机制.

2.2Mesos集群管理器:Spark支持单节点集群或多节点集群.Mesos为分布式应用程序的资源共享和隔离提供了一个有效平台.该设置充许Spark与Hadoop共存于节点的一个共享池中.

2.3Yarn:MapReduce在Hadoop0.23时已经经历了一次大规模更新,新版本的MapReduce2.0被称为YARN,YARN根本上解决旧MapReduce框架的性能瓶颈,YARN是一个真正的Hadoop资源管理器,允许多个应用程序同时、高效地运行在一个的集群上.

2.4MLlib:是Spark对常用的机器学习算法的实现库,同时包括相关的测试和数据生成器.MLlib目前支持四种常见的机器学习问题:二元分类,回归,聚类以及协同过滤,同时也包括一个底层的梯度下降优化基础算法.

2.5工具组件层:工具组件层整合了自然语言大数据采集、处理需要使用的基础技术和工具,包括网络爬虫、中文分词、词性标注、可视化等.

3系统测试

通过部署Spark平台与传统的Hadoop平台进行对比,数据量级为10.6GB,在两个平台上进行同一篇文章的抄袭检测,Spark平台的速度比传统的Hadoop平台提升了10倍左右.实验表明,基于Spark的抄袭检测框架在大数据处理速度上具有明显的优势.

4结束语

本文设计了一个基于Spark框架的抄袭检测计算框架,下一步工作将在引框架基础上研发基于互联网的抄袭检测云服务,充分发挥Spark对于迭代算法数据内存驻留支持的特性,提高检测速度.

相关论文

本科毕业文抄袭检测山东

本论文是一篇大学生相关本科论文重复率,关于本科毕业文抄袭检测山东相关在职研究生毕业论文范文。免费优秀的关于大学生及电子信息工程及论。

在线文抄袭检测郑州

本文是一篇研究生论文范文,研究生方面有关毕业论文格式范文,关于在线文抄袭检测郑州相关函授毕业论文范文。适合研究生及论文及导师方面的的。

免费文抄袭检测系统广东

此文是一篇学生论文范文,关于学生相关论文范文例文,与免费文抄袭检测系统广东相关专升本毕业论文开题报告。适合不知如何写学生及论文及时间。