goback
月期刊咨询网
当前位置:首页>>计算机应用论文>>正文

国家级论文发表基于MapReduce和AprioriAll的分布式序列挖掘算法


所属栏目:计算机应用论文
发布时间:2015-04-15 14:26:06  更新时间:2015-04-15 14:29:05

已签订领域:化学工程/制药,医学题目:**作为抗癌剂***催化剂**取代苯丙***SCI四区 直击了解更多选题

已签订领域:环境科学-公共卫生题目:用**电***生物传感器**癌症**SCI二区 直击了解更多选题

已签订领域:环境科学-公共卫生题目:**氧化石墨烯纳米***材料的生物传感器***结肠癌生物**癌胚****SCI二区 直击了解更多选题

已签订领域:环境科学-公共卫生题目:聚合物纳米***a-硫辛酸***在神经炎症***应用***临床分析SCI二区 直击了解更多选题

已签订领域:计算机视觉/遥感/智能驾驶/汽车题目:**深度学习***高分辨率遥感***车辆检***SCI三区 直击了解更多选题

已签订领域:企业管理题目:社会交流***领导***倾向***方向SSCI,SCI三区,二区 直击了解更多选题

已签订领域:企业管理题目:**中小企业社交媒体****可持续绩效***因素探析SSCI,SCI三区,二区 直击了解更多选题

已签订领域:环境科学,公共卫生题目:利用硫氨酸***石墨烯纳米***电化学***传感器实现癌胚抗原***SCI二区 直击了解更多选题

已签订领域:环境科学,公共卫生题目:基于抗***纳米复合***高性能***早起癌症诊断***SCI二区 直击了解更多选题

已签订领域:经济,能源题目:***政治冲突****绿色金融、金融**、气***化***SCI四区 直击了解更多选题

已签订领域:经济,能源题目:冲***中能源不安全对***和环境***SCI四区 直击了解更多选题

已签订领域:教育题目:大学生***社交媒体***成绩影响***SSCI三区 直击了解更多选题

已签订领域:教育题目:巴基斯坦***学习实施的***的**SSCI二区 直击了解更多选题

已签订领域:教育题目:大学生对****下网络教学**思***SSCI二区 直击了解更多选题

已签订领域:教育题目:**教师和学生对影响***医疗**效果的****看法SSCI三区 直击了解更多选题

已签订领域:计量经济学题目:**货币、黄金、**和美国***的波动***相互依赖性:**数据的分析SSCI一区 直击了解更多选题

已签订领域:计量经济学题目:东南亚***内**趋同***中等收入**:新**的***SSCI二区 直击了解更多选题

已签订领域:建筑,历史题目:历史景点在***旅游发***中的***影响**(**研究:**历史***)SSCI,SCI一区 直击了解更多选题

已签订领域:领导力,管理题目:量化**领导对角色绩效***响:**冲突与工作自主性***作用SCI二区 直击了解更多选题

已签订领域:信息技术,教育题目:数字***环境对学生学习成绩***:游戏**和***现实在教育***作用SSCI四区 直击了解更多选题

已签订领域:信息技术,教育题目:信息技术***续决策之间的***:创新***识的**作用SSCI二区 直击了解更多选题

已签订领域:信息技术,教育题目:课程**对大学生***发展的影响:学习习惯和***的***作用SSCI一区 直击了解更多选题

已签订领域:信息技术,教育题目:信息技术***与可持续决策**:高等***学生认知***作用SSCI二区 直击了解更多选题

已签订领域:计算机,英语教学题目:英语****学**与人工智能****学习SCI三区 直击了解更多选题

已签订领域:计算机,音乐题目:评价**和音乐**对学生成绩***的影响SCI三区 直击了解更多选题

已签订领域:人体工程,心理学题目:基于预先处理模型***模式人体工程学***女生肌肉骨骼***预防行为*** 直击了解更多选题

已签订领域:人体工程,心理学题目:制定一个***人体工程学**,以识别、优先考虑***职业压力源的*** 直击了解更多选题

已签订领域:人体工程,心理学题目:多重工作**压力和工作***:***工效学方法的混合方法*** 直击了解更多选题

已签订领域:数学,经济题目:数学模型***结构调整和经济转型****研究 直击了解更多选题

已签订领域:数学,经济题目:***时间**数学模型在***媒体营销**中的应用*** 直击了解更多选题

已签订领域:数学,经济题目:***时间**模型在***物流运**能力***研究 直击了解更多选题

已签订领域:数学,经济题目:碳****经济的数学模型****研究 直击了解更多选题

已签订领域:农村经济题目:农****社区**发展***分**SCI四区 直击了解更多选题

已签订领域:农村经济题目:创业***对乡村****发展的****SCI四区 直击了解更多选题

已签订领域:农村经济题目:农村创业****的空间*****究SCI四区 直击了解更多选题

已签订领域:医学,电化学题目:纳米颗粒*****及其在癌症****和重金属*****检测中的应用SCI三区 直击了解更多选题

已签订领域:医学,电化学题目:基于*****前列腺癌药物氟****检测方法的*****腺癌治疗SCI二区 直击了解更多选题

已签订领域:医学,电化学题目:气海***********金纳米颗粒的新型****************粘土及其对胃癌********************抗癌SCI二区 直击了解更多选题

已签订领域:医学,电化学题目:基于抗***********GCE纳米***********材料的高性能*******************早期癌症SCI二区 直击了解更多选题

已签订领域:医学,电化学题目:用******电化学生物传感器*****癌症***************SCI二区 直击了解更多选题

已签订领域:医学,电化学题目:基于*****石墨烯纳米****材料的生物传感******用于测定结肠*****生物*****SCI二区 直击了解更多选题

已签订领域:医学,电化学题目:聚合***纳米复合电极*****疏辛酸电化学检测*********SCI二区 直击了解更多选题

已签订领域:医学,电化学题目:利用****酸/**糖**石墨烯纳米复合修饰的电化学*****SCI二区 直击了解更多选题

已签订领域:环境能源,绿色投资题目:环境能源、绿色投资、城市化和环境类方向SCI三区 直击了解更多选题

已签订领域:计算机,英语教学题目:英语教学**人工智能***习SCI 直击了解更多选题

已签订领域:计算机,音乐题目:评价**和音乐形式*学生***影响SCI三区 直击了解更多选题

已签订领域:经济,绿色投资题目:***能源效率***化之间的***SCI三区 直击了解更多选题

已签订领域:经济政策题目:***阐明**印度经济***的关系SCI三区 直击了解更多选题

已签订领域:经济,金融题目:***国家的能源***重***SCI 直击了解更多选题

已签订领域:经济,金融投资题目:***融新之间***直接投资***SCI三区 直击了解更多选题

已签订领域:经济,数学,统计学,管理学题目:非***想重限制下***袭评价***SSCI四区 直击了解更多选题

已签订领域:经济,数字,管理学题目:基干***生产系统***SSCI四区 直击了解更多选题

已签订领域:农业,土壤科学题目:不同***有机覆盖***养分循环SSCI 直击了解更多选题

已签订领域:电力与能源系统,管理题目:pv***氢定价的***随***型稀SSCI,SCI二区 直击了解更多选题

已签订领域:建筑规划,计算机题目:使用***因子分析法***可持续***SCI三区 直击了解更多选题

已签订领域:工程技术,纺织工程,材料科学题目:甘***淀粉酶的提取***退浆中的应用SCI四区 直击了解更多选题

已签订领域:渔业,鱼类生理学题目:饲料***镉毒性的交互***生长***病理学***SCI二区 直击了解更多选题

已签订领域:渔业,鱼类生理学题目:****鱼水源***起的生******SCI三区 直击了解更多选题

已签订领域:金融,环境经济题目:*****预算在能效、绿色***的作用SCI 直击了解更多选题

已签订领域:应用数学/计算物理题目:***非线性库***自相位调制***SCI三区 直击了解更多选题

已签订领域:计算机,医学检测题目:***COVID-19***力***算法***决策SCI三区 直击了解更多选题

已签订领域:计算机,物联网,智慧城市题目:基于***物联网****算法SCI三区 直击了解更多选题

  国家级论文发表推荐期刊《信息与电脑》国家新闻出版总署批准,国内外公开发行的计算机类优秀期刊。1989年创刊,国内统一刊号:CN11-2697/TP,国际标准刊号:ISSN1003-9767,邮发代号:82-454。《信息与电脑》杂志在零售流通领域有着广泛的盛誉,鉴于“中国第一本全力推动流通领域信息化刊物”权威性的要求,杂志的主要特点就是汇集流通业IT业内专家和企业管理者最新的言论和观点,以及他们的实践经验与体会分享,为流通领域的企业提供理论指导和实践参考。
  摘 要:序列挖掘技术,能够从大量杂乱的数据中挖掘出用户的潜在访问模式。然而,传统的挖掘技术,由于其性能和扩展性的诸多限制,并不适合现今大数据下的挖掘任务。本文基于传统的挖掘算法AprioriAll,在结合国内外研究进展的基础上引入分布式概念格模型,提出了分布式序列挖掘算法PAHDP。通过在分布式系统上构建算法原型,并加以评估,本文证明了该算法的正确性和有效性,具有一定的应用价值。

  关键词:数据挖掘,分布式计算,概念格,Hadoop

  分布式计算的思想,可以将仅仅由单个计算机难以计算和维护的计算任务分为很多小的、相互独立的部分,然后把这些部分分配给很多台计算机进行处理。在这个基础上,利用分布式系统架构MapReduce,用户可以在不了解分布式底层细节的情况下,充分利用其框架下集群的高传输率与容错率的优点进行计算与存储。

  正是在这种背景下,采用分布式计算以实现庞大数据集的数据挖掘,成为了目前国内外的研究热点。利用分布式计算,人们可以把庞大的数据集分为小的、相对独立的部分,并部署于集群的计算机中进行计算,最后将结果综合。本文在此基础上,对传统的数据挖掘算法AprioriAll进行了分布式探索,并针对影响性能的多个因素进行了分析与改进。

  1 基于AprioriAll的分布式挖掘算法设计与实现

  1.1 AprioriAll算法

  AprioriAll算法是由R.Agrawal等人提出的,该算法采用迭代增长的思想,首先在数据库中找出所有频繁项集,并在每一次迭代过程中,将上一次得到的序列相互链接以生成新序列。接着,在扫描数据库的同时去掉不满足最小支持度阈值的序列,并将结果作为下一次迭代的候选,直到无法再产生更长的新序列为止。最后,扫描生成的频繁序列,去除包含于其它序列的子序列,留下来的就是最终的结果。该算法结构简单,然而面临着重复扫描哦数据库、难以并行化等问题,需要进行优化。

  1.2 算法概述

  分布式序列模式挖掘的基本思想是将数据划分为一个个数据分片,再将每个独立的数据分片上进行数据挖掘,最后将所得的数据合并。结合这样的思路,本算法的基本流程则为:(1)数据转换与有机分割。本算法的第一步,就是完成数据源到形式背景的转换。由于输入数据为大量的交易记录,因此此步操作可以在集群系统上完成。对于每一个集群节点,其输入的数据则为交易数据库的一部分,接着,集群节点保存输入的交易信息,并记录其中出现的交易(对象)与商品(属性)。待所有节点完成输入与处理,将每一个形式背景分片合并,即可得到由原数据库转化而得到的形式背景。(2)分布式建格。待数据转化和分割完成之后,各节点即可根据输入的子全概念和其对应的形式背景构造子全格。本算法采用了Bordat算法作为建格算法,其实现简单,且效率较高。(3)频繁1-序列生成。待节点建立好了子全格之后,即可进行频繁1-序列的生成。由于在第1步实现了数据的相对独立分割,因此,此处仅需执行本地操作,无需与外界通信。由于概念格的每一个节点与概念一一对应,而概念则反映了项集(商品集)与其购买记录之间的联系。因此,仅需遍历概念格,对每一个节点计算其外延的支持度,并收集支持度大于最小阈值的概念,其内涵即为频繁项集,也就是频繁1-序列。(4)数据再分配与频繁序列挖掘。待所有节点完成计算,将所有频繁1-序列进行合并,即可得到所有的频繁1-序列,这就是频繁序列挖掘的基础。对于挖掘出的频繁序列集来说,可以按照序列的首元素进行分组,对每一个节点设定其目标序列,所有节点仅需挖掘以目标序列开头的频繁序列。待所有节点对频繁序列的挖掘完毕,即可进行合并,并将最终结果输出。

  1.3 改进点分析

  针对传统的AprioriAll算法,这个算法做出的改进在于:(1)将传统的串行算法并行化,利用了集群计算的优势提高计算效率。通过将算法部署于MapReduce框架,实现了分布式计算任务的自动部署和负载管理;(2)引入了分布式概念格的思想,避免了AprioriAll算法对数据库的频繁访问,通过对数据的一次访问,即可建立起数据之间的内在联系,为之后的序列挖掘提供了所有的必需信息,从而减少了节点之间的通信;(3)在序列生成上,将传统的挖掘任务分离,通过采用目标序列的办法实现了分布式挖掘,在提高效率的同时减少了冗余数据的出现。

  2 实验评测

  实验时,共对三种情况下的序列模式挖掘(AprioriAll算法,伪分布式环境下的PAHDP算法与分布式环境下的PAHDP算法)进行了比较与测试。实验设置8组交易数据,其中顾客数目与商品数目相等,并从20增长到2000。顾客平均交易数目与平均每次购买商品数目分别固定为8与2.5。结果如下图所示:

  图1 实验结果

  通过对比可以发现,当顾客数目与商品数目相等,且交易数据小于9000时,PAHDP算法执行时间远远大于AprioriAll的单机算法。而当数据量继续提升时,AprioriAll的执行时间则随之从53.385秒增加到了405.418秒(记录数为18906),并超过了PAHDP算法。当数据量继续增长时,AprioriAll算法内存溢出而无法计算,而PAHDP算法增速较缓(伪分布式节点的计算时间仅从116秒增长到了153秒,增长率为31.9%)。从对比实验可以看出,传统的AprioriAll算法在顾客数目小于商品数目的时候,其计算时间的增长比顾客数目大于商品数目的情况下更为缓慢,因此该算法对于数据的内在结构是敏感的。而对于PAHDP算法来说,则在三种情况下的运行速度差异不大,因此其对于数据是不敏感的。

  3 结束语

  本文深入分析了AprioriAll算法的实现流程和相关局限,从而提出了新算法的改进目标。基于这些改进点,本文提出了分布式挖掘算法PAHDP,并对整个算法的流程和其中的关键技术进行了阐述。本文证明了PAHDP算法的有效性,论述了在较大规模数据库的情况下PAHDP算法所具有的优势。作为集群化序列挖掘的一个有效解决方案,本文设计的算法能够在大规模序列挖掘领域具备研究价值。

  参考文献:

  [1]王红侠.基于分布式概念格的序列模式发现研究[D].合肥:合肥工业大学.2007

  [2]吕峰等.4种序列模式挖掘算法的特性研究[J].武汉理工大学学报,2006,28(2):57-60

  [3]周嘉伟等.新多维序列挖掘算法:对AprioriAll算法的改进[J].科技经济市场,2006,4:26~27

  [4]吴汉燕等.基于改进的AprioriAll算法的Web序列模式挖掘研究[J].计算机工程与设计,2010(05):921-1034

  [5]王宇.序列模式挖掘的并行算法研究[D].哈尔滨.哈尔滨理工大学.2007

  作者简介:周游(1990-),男,四川南充人,研究生,研究方向:分布式数据挖掘。



月期刊平台服务过的文章录用时间为1-3个月,依据20年经验,经月期刊专家预审通过后的文章,投稿通过率100%以上!
  • 2025年苏州市中小学和中等职业学校教师评正高级职称学术成果和投稿期刊

    2025-08-16
    作为一名教师,想要在相关专业领域提升影响力、学术价值、薪资,职称晋升是每位老师的首选,特别是高级职称,参评人需要一级一级申报。那么中小学和中等职业学校教师怎么评正高级职称,今天在这里为大家介绍2025年苏州市中小学和中等职业学校教师评正高级职称学术成果
  • 汇总整理:105本中科院生物学一区sci期刊 助力期刊论文快速出刊!

    2025-08-16
    无论你是作为一名生物学领域的学生还是科研人员,想要在行业领域提升影响力、学术价值,以及职称晋升和就业,发表一篇高质量的一区sci论文是非常有必要的。为了助力快速选刊和出刊,今天在这里 汇总整理:105本中科院生物学一区sci期刊 ,供参考: 1、 NATURE REVIEWS
  • 知网国际刊可以评职称吗?知网收录国际期刊一览表

    2025-08-16
    知网对于学术研究人员来说并不陌生,在国内指最为权威查询期刊和发表论文的数据库,可查询国内外各个学科领域的期刊,为职称晋升和毕业提供了很大的帮助。那么, 知网国际刊可以评职称吗 ? 具有较高的认可度,但并非绝对,具体还要以单位评审文件要求为准 ,详情如下
  • 发一篇三区sci多少钱?预算要备好!

    2025-08-16
    发一篇三区sci论文的费用因多种因素而异,没有统一标准。费用可能从几百美元到数万元不等,具体取决于期刊类型、服务内容、实验成本等。建议作者根据自身需求和预算,选择合适的sci期刊投稿,具体 发一篇三区sci多少钱 ?详情如下: 1、发表sci论文费用构成,无统一标
  • 3本人工智能SCI一区二区四区期刊 小白逆袭首选!

    2025-08-15
    在这个智能的时代,想要提升在学术领域的影响力和认可度,发表一篇高质量的人工智能sci论文是非常有必要的,为职称晋升、评奖、评优和就业等铺平了道路。那么你还在等什么?一起看看 3本人工智能SCI一区二区四区期刊 ,选投哪一本吧。 1、 Artificial Intelligence in
  • 中国临床研究成果发表国际肝病领域顶级期刊《Hepatology》

    2025-08-12
    2025 年 8 月 11 日, 国际肝病顶级期刊《 Hepatology 》 发表了中国微芯生物自主研发的 2 型糖尿病药物西格列他钠单药治疗代谢相关脂肪性肝炎(MASH)的 Ⅱ 期临床研究成果。 (Metabolic Dysfunction-AssociatedSteatohepatitis,MASH)是一种以肝脏脂肪过度积累和炎
  • 注意!《日本侵华南京大屠杀研究》入选CSSCI来源期刊

    2025-08-12
    近日,根据《中文社会科学引文索引来源期刊(集刊)遴选办法》,南京大学中国社会科学研究评价中心评定, 《日本侵华南京大屠杀研究》入选CSSCI(2025-2026)来源期刊。 这是杂志继入选中文社会科学引文索引(CSSCI) 扩展版来源期刊中国人文社会科学期刊AMI综合评价新刊
  • 最新!演员张译获国家一级演员职称,享受正高级职称待遇

    2025-08-06
    2025年7月29日, 北京市高级专业技术资格评审委员会 发布公示,张译(公示名张毅)通过 一级演员(正高级职称) 专业技术资格评审。据了解,一级演员是中国对为繁荣国家文艺事业作出突出贡献的演员给予的领域最高职称。 公示显示,北京市艺术系列(高层次、急需紧缺、
  • 2025年中国在国际顶刊发文数量最新排名:北大第一/复旦第三

    2025-07-29
    2025我国在国际顶刊发文数量最新排名,北大第一,复旦第三 北京大学稳居第一 2025年1-6月份北大的论文在《 Nature 》上发表14篇、《Science》上发表8篇、《Cell》上发表6篇,在CNS三大国际顶刊上发文数量总计28篇,远远超越第二名14篇,可谓是遥遥领先,稳居榜首。 清
  • 川北医学院:本科生履历“逆天”顶刊发了7篇SCI

    2025-07-18
    7月17日,川北医学院通报调查结果,这名本科生在奖项申请答辩的PPT里,成果表述不严谨引发质疑。 本科生履历逆天 网友直呼罗博士 网传的答辩PPT里,川北医学院口腔医学院2022级学生罗子甯的成绩单让人眼花缭乱:兼任多个顶级期刊审稿人,以第一作者或通讯作者身份,在
回到顶部