goback
月期刊咨询网
当前位置:首页>>计算机应用论文>>正文

高效生成频繁模式树的算法研究


所属栏目:计算机应用论文
发布时间:2011-03-18 10:49:45  更新时间:2011-03-18 10:49:45

已签订领域:化学工程/制药,医学题目:**作为抗癌剂***催化剂**取代苯丙***SCI四区 直击了解更多选题

已签订领域:环境科学-公共卫生题目:用**电***生物传感器**癌症**SCI二区 直击了解更多选题

已签订领域:环境科学-公共卫生题目:**氧化石墨烯纳米***材料的生物传感器***结肠癌生物**癌胚****SCI二区 直击了解更多选题

已签订领域:环境科学-公共卫生题目:聚合物纳米***a-硫辛酸***在神经炎症***应用***临床分析SCI二区 直击了解更多选题

已签订领域:计算机视觉/遥感/智能驾驶/汽车题目:**深度学习***高分辨率遥感***车辆检***SCI三区 直击了解更多选题

已签订领域:企业管理题目:社会交流***领导***倾向***方向SSCI,SCI三区,二区 直击了解更多选题

已签订领域:企业管理题目:**中小企业社交媒体****可持续绩效***因素探析SSCI,SCI三区,二区 直击了解更多选题

已签订领域:环境科学,公共卫生题目:利用硫氨酸***石墨烯纳米***电化学***传感器实现癌胚抗原***SCI二区 直击了解更多选题

已签订领域:环境科学,公共卫生题目:基于抗***纳米复合***高性能***早起癌症诊断***SCI二区 直击了解更多选题

已签订领域:经济,能源题目:***政治冲突****绿色金融、金融**、气***化***SCI四区 直击了解更多选题

已签订领域:经济,能源题目:冲***中能源不安全对***和环境***SCI四区 直击了解更多选题

已签订领域:教育题目:大学生***社交媒体***成绩影响***SSCI三区 直击了解更多选题

已签订领域:教育题目:巴基斯坦***学习实施的***的**SSCI二区 直击了解更多选题

已签订领域:教育题目:大学生对****下网络教学**思***SSCI二区 直击了解更多选题

已签订领域:教育题目:**教师和学生对影响***医疗**效果的****看法SSCI三区 直击了解更多选题

已签订领域:计量经济学题目:**货币、黄金、**和美国***的波动***相互依赖性:**数据的分析SSCI一区 直击了解更多选题

已签订领域:计量经济学题目:东南亚***内**趋同***中等收入**:新**的***SSCI二区 直击了解更多选题

已签订领域:建筑,历史题目:历史景点在***旅游发***中的***影响**(**研究:**历史***)SSCI,SCI一区 直击了解更多选题

已签订领域:领导力,管理题目:量化**领导对角色绩效***响:**冲突与工作自主性***作用SCI二区 直击了解更多选题

已签订领域:信息技术,教育题目:数字***环境对学生学习成绩***:游戏**和***现实在教育***作用SSCI四区 直击了解更多选题

已签订领域:信息技术,教育题目:信息技术***续决策之间的***:创新***识的**作用SSCI二区 直击了解更多选题

已签订领域:信息技术,教育题目:课程**对大学生***发展的影响:学习习惯和***的***作用SSCI一区 直击了解更多选题

已签订领域:信息技术,教育题目:信息技术***与可持续决策**:高等***学生认知***作用SSCI二区 直击了解更多选题

已签订领域:计算机,英语教学题目:英语****学**与人工智能****学习SCI三区 直击了解更多选题

已签订领域:计算机,音乐题目:评价**和音乐**对学生成绩***的影响SCI三区 直击了解更多选题

已签订领域:人体工程,心理学题目:基于预先处理模型***模式人体工程学***女生肌肉骨骼***预防行为*** 直击了解更多选题

已签订领域:人体工程,心理学题目:制定一个***人体工程学**,以识别、优先考虑***职业压力源的*** 直击了解更多选题

已签订领域:人体工程,心理学题目:多重工作**压力和工作***:***工效学方法的混合方法*** 直击了解更多选题

已签订领域:数学,经济题目:数学模型***结构调整和经济转型****研究 直击了解更多选题

已签订领域:数学,经济题目:***时间**数学模型在***媒体营销**中的应用*** 直击了解更多选题

已签订领域:数学,经济题目:***时间**模型在***物流运**能力***研究 直击了解更多选题

已签订领域:数学,经济题目:碳****经济的数学模型****研究 直击了解更多选题

已签订领域:农村经济题目:农****社区**发展***分**SCI四区 直击了解更多选题

已签订领域:农村经济题目:创业***对乡村****发展的****SCI四区 直击了解更多选题

已签订领域:农村经济题目:农村创业****的空间*****究SCI四区 直击了解更多选题

已签订领域:医学,电化学题目:纳米颗粒*****及其在癌症****和重金属*****检测中的应用SCI三区 直击了解更多选题

已签订领域:医学,电化学题目:基于*****前列腺癌药物氟****检测方法的*****腺癌治疗SCI二区 直击了解更多选题

已签订领域:医学,电化学题目:气海***********金纳米颗粒的新型****************粘土及其对胃癌********************抗癌SCI二区 直击了解更多选题

已签订领域:医学,电化学题目:基于抗***********GCE纳米***********材料的高性能*******************早期癌症SCI二区 直击了解更多选题

已签订领域:医学,电化学题目:用******电化学生物传感器*****癌症***************SCI二区 直击了解更多选题

已签订领域:医学,电化学题目:基于*****石墨烯纳米****材料的生物传感******用于测定结肠*****生物*****SCI二区 直击了解更多选题

已签订领域:医学,电化学题目:聚合***纳米复合电极*****疏辛酸电化学检测*********SCI二区 直击了解更多选题

已签订领域:医学,电化学题目:利用****酸/**糖**石墨烯纳米复合修饰的电化学*****SCI二区 直击了解更多选题

已签订领域:环境能源,绿色投资题目:环境能源、绿色投资、城市化和环境类方向SCI三区 直击了解更多选题

已签订领域:计算机,英语教学题目:英语教学**人工智能***习SCI 直击了解更多选题

已签订领域:计算机,音乐题目:评价**和音乐形式*学生***影响SCI三区 直击了解更多选题

已签订领域:经济,绿色投资题目:***能源效率***化之间的***SCI三区 直击了解更多选题

已签订领域:经济政策题目:***阐明**印度经济***的关系SCI三区 直击了解更多选题

已签订领域:经济,金融题目:***国家的能源***重***SCI 直击了解更多选题

已签订领域:经济,金融投资题目:***融新之间***直接投资***SCI三区 直击了解更多选题

已签订领域:经济,数学,统计学,管理学题目:非***想重限制下***袭评价***SSCI四区 直击了解更多选题

已签订领域:经济,数字,管理学题目:基干***生产系统***SSCI四区 直击了解更多选题

已签订领域:农业,土壤科学题目:不同***有机覆盖***养分循环SSCI 直击了解更多选题

已签订领域:电力与能源系统,管理题目:pv***氢定价的***随***型稀SSCI,SCI二区 直击了解更多选题

已签订领域:建筑规划,计算机题目:使用***因子分析法***可持续***SCI三区 直击了解更多选题

已签订领域:工程技术,纺织工程,材料科学题目:甘***淀粉酶的提取***退浆中的应用SCI四区 直击了解更多选题

已签订领域:渔业,鱼类生理学题目:饲料***镉毒性的交互***生长***病理学***SCI二区 直击了解更多选题

已签订领域:渔业,鱼类生理学题目:****鱼水源***起的生******SCI三区 直击了解更多选题

已签订领域:金融,环境经济题目:*****预算在能效、绿色***的作用SCI 直击了解更多选题

已签订领域:应用数学/计算物理题目:***非线性库***自相位调制***SCI三区 直击了解更多选题

已签订领域:计算机,医学检测题目:***COVID-19***力***算法***决策SCI三区 直击了解更多选题

已签订领域:计算机,物联网,智慧城市题目:基于***物联网****算法SCI三区 直击了解更多选题

  摘要:频繁模式树的提出,提高了挖掘效率,是关联规则挖掘史上的一个历程碑。频繁模式增长算法在创建频繁模式树时,重复比较新结点与已经插入结点,以便确定新插入点的位置,造成了性能上的浪费。针对此问题,本文提出一种解决方法,即在创建FP-tree之前,将每一事务转换成相应的实数,以便在通过项头表寻找结点链时可以快速定位。然后再对这些由实数组成的对应数据库进行排序,得到一个新的数据库。在新的数据库基础上快速生成频繁模式树,这样就避免了大量的重复的工作,提高了创建FP-tree的效率。理论分析表明,修改后的算法的性能明显优于原算法。
  关键词:数据挖掘;频繁项集挖掘;频繁模式增长算法;有序频繁模式增长算法;
  中图分类号:TP311.1
  1引言
  频繁模式的挖掘[1]在关联规则[2]、相关分析、序列模式、因果律、显露模式等许多重要数据挖掘任务中承担着重要的角色。长期以来,挖掘频繁模式主要采用Apriori[3,4]算法及其改进形式。然而Apriori及其改进算法仍然会产生大量候选项集,并需要反复频繁的扫描数据库,这严重影响了算法的效率。J.Han等人提出了新的结构FP-tree和相应的模式增长算法FP-growth[5],该算法采用分治的策略,无须产生候选项集,FP-growth算法是一种本质上不同于Apriori的挖掘频繁项集的有效算法。但它的大部分时间都花费在FP-tree及条件FP-tree的构造与遍历上,如果能提高这方面的效率将对提高算法的效率有较大的帮助。基于这样的分析,我们提出了对FP-growth算法的改进措施。在原数据库D的基础上建立新的数据库D*。以便创建有序FP-tree,使得树中的每一个结点的子结点按照项的序号从小到大排列。这样,加入新结点时需要比较的结点数大大降低了,从而缩短构造一棵树的时间。此外,还采取了其它的优化措施,如将item-no按照item-name的次序排成一个列表,在将item-name转换为item-no时,通过列表可直接找到对应的项。
  2问题描述
  2.1频繁项集[6]
  设I={i1,i2,…,in}是n个不同项目(Item)的集合,如果对一个集合,且k=|X|,则X称为K项集,或者简单地称为一个项集(Itemset)。记D为事务T的集合,。对于给定事务数据库D,定义X的支持度为D中包含X的事务个数,记为sup(X)。用户可自定义一个小于|D|的最小支持度记为s.
  定义1频繁项集:给定事务数据库D和支持度s,对于项集,若sup(X)≥s,则称X为D中的频繁项集。
  性质1一个长度为k的项集不是频繁的,则它的长度为(k+1)的超模式不可能是频繁的。
  2.2FP-tree和FP-growth算法
  频繁模式树即FP-tree中,每个结点由3个域组成:项名item、结点支持度计数sup-count及结点链node-link。为方便遍历,创建一个项头表Headertable,它由2个域组成:项名item和结点链头headofnode-link,其中结点链头指向FP-tree中与之名称相同的第一结点。
  FP-growth算法主要是FP-tree的构造过程,需要扫描两次数据库:
  (1)第一次扫描数据库D,产生所有频繁1-项集及其支持度计数,按其支持度降序排列插人到项头表。
  (2)创建FP-treeT的根结点,用“null”标记,对D中每个事务做如下处理:①按项头表中的次序排列第一次扫描得到的频繁项集,设排列后的结果为[p|P],其中p是第1个项目,而p是剩余项目的列表;②调用insert_tree[p|P],如果T有子女N使得N.item=p,则N的计数增加1,否则创建一个新结点N,将其名称item设置为p,将sup_count设置为1,链接到它的父结点,并通过结点链node-link链接到具有相同项名的结点,如果P非空,递归调用insert_tree([P|N])。
  3有序频繁模式树
  3.1有序FP-tree的定义与构造
  有序FP-tree是在传统FP-tree的基础上通过改进获得的。
  定义2有序频繁模式树(OFP-tree)是一种树结构,定义如下:
  (1)它由以下三个部分组成:一个标记为“null"的树根,一棵以项前缀子树集作为树根的孩子所组成的树,以及一个频繁项头表。
  (2)项前缀子树中的每个结点由6个域组成:item-no,count,parent-link,child-link,last-link和node-link。其中,item-no记录该结点所代表的项在项头表中的序号,count记录从根结点到该结点的路径上所代表的项集在所有数据库事务中出现的次数,parent-link是指向父结点的指针,child-link是指向第一个子结点的指针,last-link是指向最后插入的孩子结点,而node-link则连接到FP-tree中与该结点具有相同item-no的下一个结点,如果没有下一结点,则为null。具有相同父结点的结点按照item-no从小到大的次序排列。
  (3)频繁项头表中的每个项由两个域组成:item-no(结点所代表的项名)和node-link的头指针(指向FP-tree中具有item-name对应item-no的第一个结点)。项头表中的项按照其出现频度的降序排列。
  OFP-tree与FP-tree不同之处主要在于:(1)FP-tree中的结点保存的是item-name,而OFP-tree中的结点保存的是item-no,在输出模式时才将item-no换成item-name。(2)FP-tree中的结点是无序的,而OFP-tree中的结点是按照item-no从小到大的次序排列的。
  3.2算法实例
  例1设事务数据库中的事务如表1所示,最小支持度阈值为3。
  
  表1一个事务数据库示例
1.jpg

  表2通过排序后得到的新数据库D*
2.jpg  
  3.jpg
  图1事务数据库D*对应的OFP树
  
  算法1:OFP-tree的建立
  输入:一个事务数据库D及最小支持度阈值minsup
  输出:建立后的排序频繁模式树OFP-tree
  方法:执行以下步骤
  (1) 扫描事务数据库D一遍,获得频繁1-项集及其支持度信息,将频繁1-项集按照支持度降序排列,记为L。
  (2) 第二遍扫描D,将trans中的每个频繁项按L中顺序排列,并将项名用L中的序号替换,不存在的项用0来补位。
  (3) 将替换好的所有事务按实数大小排序,得到一个新的数据库D*。
  (4) 创建SFP-tree的根结点T,记为“null”,对于D*中的每个trans执行如下操作:
  ○1设排列后的结果为[p|P],其中p是第一个项目,而P是剩余项目列表;
  ○2调用insert_tree([p|P],T),如果T没有子结点,则N.item-no=p,N.count=1,N的父结点链指向T;否则,将p与T的最右子结点进行比较,如果N.item-no=p,则N的计数加1,否则,创建一个新结点N,使N.item-no=p,N.count=1,将T的last-link指向N,N的父结点链指向T。
  ○3如果新加入了结点N,则将N插入到项头表中第p个元素的相同结点链表的末尾.
  ○4如果P非空,则递归调用insert-tree(P,N)。
  需要指出的是:在OFP-tree中,由于相同父结点的子结点是有序的,在加入新结点时只需要比较最右子结点的item-no,而FP-tree则需要比较所有结点。所以,OFP-tree加入一个新结点的时间大大降低。而且,item-no就是该项在项头表中的位置,不需要进行查找。
  算法2:OFP-growth
  输入:建成的OFP-tree及minsup
  输出:调用OFP-growth(OFP-tree,null)
  方法:调用OFP-growth(OFP-tree,null)
  ProcedureOPF-growth(T,a)
  {
  (1) if树T包含单一路径P
  (2) then对路径P中的任一项集组合β,输出项集βα(转换为item-name),项集支持度取β中结点的最小支持度
  (3) else{
  (4) for(i=n;i>=0;i--)//n为项头表的长度减1
  (5) {β=且sup(β)=sup(i);
  (6) 构造β的条件FP-treeTβ;
  (7) ifTβ≠φthencallSFP-growth(Tβ,β);
  (8) }}}
  从以上算法可以看出,在插入一个新的结点时,不需要再从项头表的第一项开始比较,将相同项名的结点链相连,只需要根据序号就可以很快的找到所要链接的结点位置。同时在新数据库的基础上,可以不必逐个比较该父结点的各子结点是否与要插入的结点相同,只需比较最后插入的结点即可。这样就大大减少了频繁模式树的创建时间。在这两方面,该算法较原算法有了一定的提高。
  4结论
  通过对频繁模式增长算法的详细了解,可以看出该算法具有以往算法所不具备的优点,但是它也同样存在一些缺陷。比如在FP-growth算法中,绝大部分时间主要是消耗在FP-tree及条件FP-tree的构造与遍历上,虽然本文对创建树的算法进行了一些改进,但是仍然存在很大的改进空间。
  参考文献
  [1]刘喜苹.基于Fp-growth算法的关联规则挖掘算法研究与应用[D].湖南:湖南大学,2006:1
  [3]安颖.基于关联规则的数据挖掘算法研究[D].北京:北京工业大学,2009:18
  [4]范明,孟小峰.数据挖掘概念与技术[M].北京:机械工业出版社,2007.3:155~156.
  [6]胡可云,田凤占,黄厚宽.数据挖掘理论与应用[M].北京:清华大学出版社;北京交通大学出版社,2008.4:115~120.



月期刊平台服务过的文章录用时间为1-3个月,依据20年经验,经月期刊专家预审通过后的文章,投稿通过率100%以上!
  • 985和211副教授评职称认可的刊物推荐

    2024-11-28
    985和211院校的副教授评职称,对于个人学术声誉和职业发展是非常重要的,一般副教授发表期刊论文认可的刊物具有较高的学术水平和影响力。以下是对 985和211副教授评职称认可的刊物推荐 ,供大家参考: 1、SCI期刊 SCI期刊,即科学引文索引期刊,是国际学术界公认的权威
  • Sustainability期刊版面费多少

    2024-11-28
    《Sustainability》是一本由MDPI出版社出版的国际性、跨学科的开放获取学术期刊,专注于环境、文化、经济和社会可持续性的研究。那么, Sustainability期刊版面费多少 ? 从1900瑞士法郎上涨至2400瑞士法郎(约19266元人民币),适用于同行评审后接受的论文,该费用于
  • EI期刊论文查重的要求是什么

    2024-11-28
    能够在EI期刊论文发表论文,除了要有高质量的研究成果外,还要通过严格的查重审核。那么, EI期刊论文查重的要求是什么 ?详情如下: EI期刊作为国际学术期刊,对论文的原创性要求较高。查重作为确保论文原创性的手段,可有效避免学术不端行为发生,维护学术界的公平和
  • 评职称,国内高校认可scopus期刊吗?scopus期刊列表

    2024-11-28
    评职称,国内高校认可scopus期刊吗 ? 不同国内高校对scopus期刊评职称认可度可能存在一定的差异性。一些高校和科研机构确实认可scopus收录的期刊,尤其是研究生、博士生和教师晋升职称等方面,但也有一些高校是不认可的,因此在选择发表scopus期刊之前,一定要了解清
  • 解答SCI论文被语言拒稿的技巧

    2024-11-28
    对于国内作者来说,其中一大原因是语言表达,如sci论文出现大量的语法错误、中式英语表达,造成编辑或审稿人对文章内容的理解偏差,导致sci论文被拒稿。以下是 解答SCI论文被语言拒绝的技巧 ,希望能够帮助到你快速发表sci论文。 1、对sci论文专业润色和翻译 为了确保S
  • 中科院院士:94%中国科研SCI论文发表国外期刊,仅5.88%在国内期刊发表

    2024-11-18
    在2024上海科技与期刊高质量发展大会上,中国科学院院士、上海市科协主席张杰指出:2023年,我国科研人员共发表SCI(科学引文索引)论文73.96万篇,其中只有4.35万篇发表在国内期刊,占比5.88%,其余94.12%的论文都发表在国外期刊上。。 开幕式上,上海市科技期刊学会
  • 励志!安徽“扭扭车少年”在《Applied Intelligence》期刊上发表论文

    2024-11-15
    2024年11月, 张亮在国际人工智能领域高水平期刊《Applied Intelligence》(应用智能)上发表题为《Robot Motion Planning Algorithm Based on Deep Learning Optimization》(基于深度学习优化机器人运动规划的算法研究)的论文。 11月19日,张亮创办的公司首款外骨骼
  • 恭喜!《中国财政》入选长安街读书会学习核心来源期刊

    2024-11-14
    《中国财政》确实被正式选为长安街读书会干部学习的核心来源期刊之一。在2024年10月8日发布的《长安街读书会干部学习核心期刊目录》中,《中国财政》被列为核心期刊之一,其关注点在于中华民族现代文明。因此,可以确认《中国财政》正式入选长安街读书会干部学习核心来
  • 恭喜!上海科技期刊三本齐发,影响因子登顶学科王座

    2024-11-13
    据SCI数据库,2023年世界科技论文总数达248万篇,其中收录中国科技论文74万篇,数量居全球之首,占比30%;排名第二的美国,收录论文53万篇,占比21%。 目前,上海共有科技期刊358本,其中英文期刊82本,占比约20%,是全国平均的两倍;SCI期刊54本,其中Q1区期刊35本。
  • 西安交大:主办期刊《药物分析学报(英文)》入选百强榜单,总排名第七

    2024-11-12
    《2024中国英文科技期刊海外媒体传播影响力报告》的发布,彰显了中国科技期刊在国际舞台上的影响力。西安交通大学主办的《药物分析学报(英文)》(Journal of Pharmaceutical Analysis, JPA)在该报告中取得了显著成就,不仅成功进入百强榜单,而且取得了总排名第七的
回到顶部