goback
月期刊咨询网
当前位置:首页>>电子技术论文>>正文

计算机类论文范文半监督学习的数据流混合集成分类算法


所属栏目:电子技术论文
发布时间:2014-01-10 17:21:16  更新时间:2014-01-10 17:58:11

已签订领域:化学工程/制药,医学题目:**作为抗癌剂***催化剂**取代苯丙***SCI四区 直击了解更多选题

已签订领域:环境科学-公共卫生题目:用**电***生物传感器**癌症**SCI二区 直击了解更多选题

已签订领域:环境科学-公共卫生题目:**氧化石墨烯纳米***材料的生物传感器***结肠癌生物**癌胚****SCI二区 直击了解更多选题

已签订领域:环境科学-公共卫生题目:聚合物纳米***a-硫辛酸***在神经炎症***应用***临床分析SCI二区 直击了解更多选题

已签订领域:计算机视觉/遥感/智能驾驶/汽车题目:**深度学习***高分辨率遥感***车辆检***SCI三区 直击了解更多选题

已签订领域:企业管理题目:社会交流***领导***倾向***方向SSCI,SCI三区,二区 直击了解更多选题

已签订领域:企业管理题目:**中小企业社交媒体****可持续绩效***因素探析SSCI,SCI三区,二区 直击了解更多选题

已签订领域:环境科学,公共卫生题目:利用硫氨酸***石墨烯纳米***电化学***传感器实现癌胚抗原***SCI二区 直击了解更多选题

已签订领域:环境科学,公共卫生题目:基于抗***纳米复合***高性能***早起癌症诊断***SCI二区 直击了解更多选题

已签订领域:经济,能源题目:***政治冲突****绿色金融、金融**、气***化***SCI四区 直击了解更多选题

已签订领域:经济,能源题目:冲***中能源不安全对***和环境***SCI四区 直击了解更多选题

已签订领域:教育题目:大学生***社交媒体***成绩影响***SSCI三区 直击了解更多选题

已签订领域:教育题目:巴基斯坦***学习实施的***的**SSCI二区 直击了解更多选题

已签订领域:教育题目:大学生对****下网络教学**思***SSCI二区 直击了解更多选题

已签订领域:教育题目:**教师和学生对影响***医疗**效果的****看法SSCI三区 直击了解更多选题

已签订领域:计量经济学题目:**货币、黄金、**和美国***的波动***相互依赖性:**数据的分析SSCI一区 直击了解更多选题

已签订领域:计量经济学题目:东南亚***内**趋同***中等收入**:新**的***SSCI二区 直击了解更多选题

已签订领域:建筑,历史题目:历史景点在***旅游发***中的***影响**(**研究:**历史***)SSCI,SCI一区 直击了解更多选题

已签订领域:领导力,管理题目:量化**领导对角色绩效***响:**冲突与工作自主性***作用SCI二区 直击了解更多选题

已签订领域:信息技术,教育题目:数字***环境对学生学习成绩***:游戏**和***现实在教育***作用SSCI四区 直击了解更多选题

已签订领域:信息技术,教育题目:信息技术***续决策之间的***:创新***识的**作用SSCI二区 直击了解更多选题

已签订领域:信息技术,教育题目:课程**对大学生***发展的影响:学习习惯和***的***作用SSCI一区 直击了解更多选题

已签订领域:信息技术,教育题目:信息技术***与可持续决策**:高等***学生认知***作用SSCI二区 直击了解更多选题

已签订领域:计算机,英语教学题目:英语****学**与人工智能****学习SCI三区 直击了解更多选题

已签订领域:计算机,音乐题目:评价**和音乐**对学生成绩***的影响SCI三区 直击了解更多选题

已签订领域:人体工程,心理学题目:基于预先处理模型***模式人体工程学***女生肌肉骨骼***预防行为*** 直击了解更多选题

已签订领域:人体工程,心理学题目:制定一个***人体工程学**,以识别、优先考虑***职业压力源的*** 直击了解更多选题

已签订领域:人体工程,心理学题目:多重工作**压力和工作***:***工效学方法的混合方法*** 直击了解更多选题

已签订领域:数学,经济题目:数学模型***结构调整和经济转型****研究 直击了解更多选题

已签订领域:数学,经济题目:***时间**数学模型在***媒体营销**中的应用*** 直击了解更多选题

已签订领域:数学,经济题目:***时间**模型在***物流运**能力***研究 直击了解更多选题

已签订领域:数学,经济题目:碳****经济的数学模型****研究 直击了解更多选题

已签订领域:农村经济题目:农****社区**发展***分**SCI四区 直击了解更多选题

已签订领域:农村经济题目:创业***对乡村****发展的****SCI四区 直击了解更多选题

已签订领域:农村经济题目:农村创业****的空间*****究SCI四区 直击了解更多选题

已签订领域:医学,电化学题目:纳米颗粒*****及其在癌症****和重金属*****检测中的应用SCI三区 直击了解更多选题

已签订领域:医学,电化学题目:基于*****前列腺癌药物氟****检测方法的*****腺癌治疗SCI二区 直击了解更多选题

已签订领域:医学,电化学题目:气海***********金纳米颗粒的新型****************粘土及其对胃癌********************抗癌SCI二区 直击了解更多选题

已签订领域:医学,电化学题目:基于抗***********GCE纳米***********材料的高性能*******************早期癌症SCI二区 直击了解更多选题

已签订领域:医学,电化学题目:用******电化学生物传感器*****癌症***************SCI二区 直击了解更多选题

已签订领域:医学,电化学题目:基于*****石墨烯纳米****材料的生物传感******用于测定结肠*****生物*****SCI二区 直击了解更多选题

已签订领域:医学,电化学题目:聚合***纳米复合电极*****疏辛酸电化学检测*********SCI二区 直击了解更多选题

已签订领域:医学,电化学题目:利用****酸/**糖**石墨烯纳米复合修饰的电化学*****SCI二区 直击了解更多选题

已签订领域:环境能源,绿色投资题目:环境能源、绿色投资、城市化和环境类方向SCI三区 直击了解更多选题

已签订领域:计算机,英语教学题目:英语教学**人工智能***习SCI 直击了解更多选题

已签订领域:计算机,音乐题目:评价**和音乐形式*学生***影响SCI三区 直击了解更多选题

已签订领域:经济,绿色投资题目:***能源效率***化之间的***SCI三区 直击了解更多选题

已签订领域:经济政策题目:***阐明**印度经济***的关系SCI三区 直击了解更多选题

已签订领域:经济,金融题目:***国家的能源***重***SCI 直击了解更多选题

已签订领域:经济,金融投资题目:***融新之间***直接投资***SCI三区 直击了解更多选题

已签订领域:经济,数学,统计学,管理学题目:非***想重限制下***袭评价***SSCI四区 直击了解更多选题

已签订领域:经济,数字,管理学题目:基干***生产系统***SSCI四区 直击了解更多选题

已签订领域:农业,土壤科学题目:不同***有机覆盖***养分循环SSCI 直击了解更多选题

已签订领域:电力与能源系统,管理题目:pv***氢定价的***随***型稀SSCI,SCI二区 直击了解更多选题

已签订领域:建筑规划,计算机题目:使用***因子分析法***可持续***SCI三区 直击了解更多选题

已签订领域:工程技术,纺织工程,材料科学题目:甘***淀粉酶的提取***退浆中的应用SCI四区 直击了解更多选题

已签订领域:渔业,鱼类生理学题目:饲料***镉毒性的交互***生长***病理学***SCI二区 直击了解更多选题

已签订领域:渔业,鱼类生理学题目:****鱼水源***起的生******SCI三区 直击了解更多选题

已签订领域:金融,环境经济题目:*****预算在能效、绿色***的作用SCI 直击了解更多选题

已签订领域:应用数学/计算物理题目:***非线性库***自相位调制***SCI三区 直击了解更多选题

已签订领域:计算机,医学检测题目:***COVID-19***力***算法***决策SCI三区 直击了解更多选题

已签订领域:计算机,物联网,智慧城市题目:基于***物联网****算法SCI三区 直击了解更多选题

  数据流分析和挖掘在数据挖掘和机器学习领域是一个具有挑战性的研究,它已经受到了计算机智能研究者的广泛关注[1-3]。与传统的静态数据相比,数据流具有动态性、高维度、实时性、无限性、顺序性和高速到达等特点[4],正是这些特点使得传统方法难以实现数据流的挖掘。而数据流分类是数据流挖掘的其中一种,它是从大量数据样本中提取知识和信息的过程,而这些样本中隐含的概念和知识可能随着时间和环境不断的发生变化,即存在的概念漂移[5]给研究带来了挑战。因此,一个高效的数据流分类算法需要在有限的时间和内存下以相当好的准确度完成任务,并且能够自适应地处理概念漂移。

  摘要:当前已有的数据流分类模型都需要大量已标记样本来进行训练,但在实际应用中,对大量样本标记的成本相对较高。针对此问题,提出了一种基于半监督学习的数据流混合集成分类算法SMEClass,选用混合模式来组织基础分类器,用K个决策树分类器投票表决为未标记数据添加标记,以提高数据类标的置信度,增强集成分类器的准确度,同时加入一个贝叶斯分类器来有效减少标记过程中产生的噪音数据。实验结果显示,SMEClass算法与最新基于半监督学习的集成分类算法相比,其准确率有所提高,在运行时间和抗噪能力方面有明显优势。

  关键词:数据流,半监督学习,集成分类,概念漂移,混合集成

  在已有研究中,解决概念漂移问题的方法概括起来有三种[6]:实例选择、实例加权和集成学习。近年来研究最热的当属集成学习方法[7-9],它克服了运用滑动窗口方法参数难以确定的缺陷。尽管集成学习已经取得了相当客观的研究进展,但它是典型的有监督学习,需要大量的类标数据进行训练学习。而且标记数据是一个耗时又费力的工作,因此便有了近年来半监督学习的研究[10-12],它通过引入未标记数据来提高分类器的泛化性能。可以说近年来集成学习和半监督学习的研究都有了新的突破,但将两者融合来改善分类性能的研究还是凤毛麟角。2002年Bennett等人[13]提出使用标记和未标记数据共同构造集成分类模型,文中主要运用Boosting方法,它的缺点在于没有一种机制来控制对无类标数据标记的错误率;在文献[14]中Woolam等人融合半监督聚类和集成方法先将无类标数据进行标记,当标记数据占到一定比例时再对数据进行聚类,再运用类标传播技术为剩余无类标数据进行标记,最后更新集成分类器,这样当数据量很大时类标传播会耗费[Ο(n3)]的时间。

  基于上述研究中存在的缺陷,该文将集成学习和半监督学习有效的融合,提出一种基于半监督学习的混合集成分类算法(Semi-SupervisedlearningBasedMixtureEnsembleClassifier,SMEClass),由于引入未标记数据,使得集成分类器的准确性和泛化性都得到了改善,而且在对未标记数据进行标记时使用集成分类器和在数据块已有的类标数据集上训练的分类器一同进行多数投票,更增加了被标记数据的可信度。同时,在算法中也使用了概念漂移检测和噪声过滤的机制,以便能够更有效的适应含噪音和概念漂移的数据流分类。

  1SMEClass算法模型的训练和分类的流程

  数据流分类挖掘面临着两大难题,一是概念漂移和噪音的影响,二是数据流实例标记的高额代价,很少有算法能高效地实现两者的兼顾,因此在标记样本少的情况下,既能兼顾概念漂移和噪音影响,又能确保分类的精度将是一个挑战,SMEClass能够解决这些问题,它假设数据流中的样本数据有一部分是随机标注的,然后使用我们的集成方法来对这些数据中的未标记实例进行标记,以增加分类的性能,而且在训练过程中进行了漂移监测和噪音过滤。

  由于数据流的特性,在此算法中使用C4.5和Na?veBayes作为基础分类器来构建混合集成模型,在每个数据块上使用类似于self-training的方法来进行半监督学习。

  首先对方法中涉及到的符号进行说明:如表1所示。

  2SMEClass算法

  2.1算法的合理性论证

  数据块到达后,用其中的有标记数据训练一个C4.5分类器,使用这个分类器和集成分类器一同对未标记数据进行预测,如果预测错误率小于随机错误率,则将这个预测类标作为此数据的类标记。在最坏的情况下,当有噪音实例时,如果拥有足够的类标数据,就能降低分类的错误率,为了达到这样的效果,借鉴了文献[16]中的思想。

  2.2算法的执行过程

  3数据流变化的检测和识别

  3.1概念漂移的检测

  3.2噪声数据的过滤

  为了降低噪音数据对概念漂移检测的影响,集成模型中增加了一个朴素贝叶斯分类器,这是因为Na?veBayes算法简单、速度快、准确率高,还有一个重要的特性就是对噪音数据相当敏感,利用它的统计特性,能够及时地发现数据中的噪音,以达到噪音过滤的效果。

  使用这个计算方法,在[K+1]个分类器进行投票时,如果实例被一半以上的决策树分类器和Na?veBayes分类器同时分类错误,那么概念就存在潜在的漂移,将分类错误的实例放入缓冲区;反之,认为是噪音,不用其构建新的分类器,这样就减少了那些噪音数据对漂移检测的影响。

  4实验及结果分析

  基于人工数据集、UCI提供的真实数据集和已有的半监督集成分类方法SEClass[15]进行对比测试。分别从算法的准确率、运行时间和可扩展性三个方面验证SMEClass方法的有效性。实验运行环境为:1.73GHz英特尔奔腾双核PC机,1GB内存,WindowsXP操作系统。

  为了实现算法,在实验中使用MOA平台,SMEClass的参数设置如下:[K=8](基分类器个数),[d=5000](数据块大小);SEClass参数如下:[L=8](基分类器个数),[K=50](微簇个数),[M=5000],[e=0.9]。采用先测试再训练的顺序,这样可以有效显示模型的泛化能力。人工数据集包括HyperPlane、RandomRBF、RandomTree、SEA和Waveform。具体构造见文献[9],真实数据集采用UCI提供的ForestCovertype。

  表2显示了数据集的相关信息,这里对数据集分成大小固定为1000的数据块,使他们分批到达来模拟数据流的特性。

  4.1算法准确率分析

  算法的准确率如表3所示,由于现实生活中获得已标记数据代价太大,在实验数据集中我们只利用[20%]的已标记数据,其余[80%]的数据是未标记的,而且在实验过程中增加了噪音数据和噪音属性,以测试SMEClass算法对噪音数据的过滤能力和对含噪音属性数据集的学习能力。

  由于文献[15]中有两个属性权值处理方式,SEClass-I在训练中不调整属性权值,SEClass-II在训练迭代过程中动态调整属性权值,通过对比实验结果可以发现SMEClass和SEClass-II的准确率较高,由于SEClass-II动态调整属性权值可以减少噪音属性的影响,而SMEClass是采用的C4.5决策树分类模型,也能实现这一点,叶节点在分裂的过程中会选择具有最大增益率的属性进行分裂,这样每次都能选择最重要的属性。而且SMEClass采用的贝叶斯分类器还能够有效降低噪音数据对准确度的影响,而SEClass没有考虑噪音数据的影响,因此在同时含有噪音属性和噪音数据的情况下,SMEClass的分类准确率要略胜一筹。

  4.2算法的运行时间和可扩展性

  在人工数据集RandomRBF上测试SMEClass算法和SEClass算法,改变数据集的属性维度[d]来测试两个算法在高维数据情况下的运行时间,从而检验算法的可扩展性。实验结果如图2所示,纵坐标代表算法训练时间和测试时间之和。

  观察实验结果,两个算法的运行时间都随属性量的增加呈线性增长趋势,这是因为在训练基本分类器和测试过程中他们都是和属性数量成线性关系的,但SMEClass的时间明显少于SEClass,这是因为SEClass算法在聚类过程中需要频繁计算实例间的距离,浪费了大量的时间,而SMEClass算法不存在这样的问题,因此在时间上有明显优势。这说明SMEClass算法在处理高维数据流时比较稳定,具有良好的可扩展性。

  5结束语

  针对数据流类标数据获取困难这一现状,该文提出将集成学习和半监督学习有效结合的一种分类算法SMEClass,算法在数据块上采用类似于self-training的学习方法将置信度高的无类标数据赋予标记后加入类标集来改善基分类器的性能,由于在标记过程中使用了集成分类器的多数投票机制,这使加入的无类标数据更加可靠,而且增加了一个Na?veBayes分类器用来去除数据所含噪音,及时更新集成分类器以适应概念漂移。

  实验表明,与基于聚类的半监督数据流集成分类算法SEClass相比,SMEClass算法具有更高的准确度和较强的抗噪性,而且免去了存储大量微簇的空间,且运行时间随属性维度的增加呈现线性增长,具有一定的可扩展性,因此本文的算法能够用于高维数据流分类问题。

  参考文献:

  [1]LiaoSH,ChuPH,HsiaoPY.Dataminingtechniquesandapplications-Adecadereviewfrom2000to2011[J].ExpertSystemswithApplications,2012,39(12):11303–11311.

  [2]ReadJ,BifetA,HolmesG,PfahRINGERB.Scalableandefficientmulti-labelclassificationforevolvingdatastreams[J].MachineLearning,2012,88(1-2),243–272.

  [3]白雪冰,王宝军.数据流分类算法分析[J].电脑知识与技术,2012,8(11):2445-2446.

  [4]ZliobaiteI.Learningunderconceptdrift:anoverview[R/OL].Technicalreport,VilniusUniversity,2009.http://arxiv.org/pdf/1010.4784v1pdf.

  [5]WidmerG,KubatM.Learninginthepresenceofconceptdriftandhiddencontexts[J].MachineLearning,1996,23(1):69-101.

  [6]HoS-s,WechslerH.AMartingaleframeworkfordetectingchangesindatastreamsbytestingexchangeability[J].IEEETransactionsonPatternAnalysisandMachineIntelligence,2010,32(12):2113-2127.

  [7]ScholzM,KlinkenbergR.AnEnsembleClassifierforDriftingConcepts[C]//Proceedingsofthe2ndInternationalWorkshoponKnowledgeDiscoveryinData

  Streams.Portugal:Porto,2005:53-64.

  [8]AggarwalCC,HanJ,WangJY,etal.AFrameworkforOn-DemandClassificationofEvolvingDataStreams[J].IEEETransactionsonKnowledgeandDataEngineering,2006,18(5):577-589.[9]BieftA,HolmesG,PfahringerB,etal.NewEnsembleMethodsforEvolvingDataStreams[C]//Proceedingsofthe15thACMSIGKDDInternationalConferenceonKnowledgeDiscoveryandDataMing.France:Paris,2009:139-148.

  [10]ChapelleO,ScholkopfB,ZienA,editors.Semi-SupervisedLearning[M].Cambridge:MITPress,2006.

  [11]ZhuX.Semi-supervisedlearningliteraturesurvey[R/OL].TechnicalReport1530,DepartmentofComputerSciences,UniversityofWisconsinatMadison,2006.http://www.cs.wisc.edu/jerryzhu/pub/ssl_survey.pdf.

  [12]ZhouZH,LiM.Semi-supervisedlearningbydisagreement[J].KnowledgeandInformationSystems,2010,24(3):415-439.

  [13]BennettK,DemirizA,MaclinR.Exploitingunlabeleddatainensemblemethods[C]//Proceedingsofthe8thACMSIGKDDInternationalConferenceonKnowledgeDiscoveryandDataMining.Canada:Edmonton,2002:289–296.



  • 985和211副教授评职称认可的刊物推荐

    2024-11-28
    985和211院校的副教授评职称,对于个人学术声誉和职业发展是非常重要的,一般副教授发表期刊论文认可的刊物具有较高的学术水平和影响力。以下是对 985和211副教授评职称认可的刊物推荐 ,供大家参考: 1、SCI期刊 SCI期刊,即科学引文索引期刊,是国际学术界公认的权威
  • Sustainability期刊版面费多少

    2024-11-28
    《Sustainability》是一本由MDPI出版社出版的国际性、跨学科的开放获取学术期刊,专注于环境、文化、经济和社会可持续性的研究。那么, Sustainability期刊版面费多少 ? 从1900瑞士法郎上涨至2400瑞士法郎(约19266元人民币),适用于同行评审后接受的论文,该费用于
  • EI期刊论文查重的要求是什么

    2024-11-28
    能够在EI期刊论文发表论文,除了要有高质量的研究成果外,还要通过严格的查重审核。那么, EI期刊论文查重的要求是什么 ?详情如下: EI期刊作为国际学术期刊,对论文的原创性要求较高。查重作为确保论文原创性的手段,可有效避免学术不端行为发生,维护学术界的公平和
  • 评职称,国内高校认可scopus期刊吗?scopus期刊列表

    2024-11-28
    评职称,国内高校认可scopus期刊吗 ? 不同国内高校对scopus期刊评职称认可度可能存在一定的差异性。一些高校和科研机构确实认可scopus收录的期刊,尤其是研究生、博士生和教师晋升职称等方面,但也有一些高校是不认可的,因此在选择发表scopus期刊之前,一定要了解清
  • 解答SCI论文被语言拒稿的技巧

    2024-11-28
    对于国内作者来说,其中一大原因是语言表达,如sci论文出现大量的语法错误、中式英语表达,造成编辑或审稿人对文章内容的理解偏差,导致sci论文被拒稿。以下是 解答SCI论文被语言拒绝的技巧 ,希望能够帮助到你快速发表sci论文。 1、对sci论文专业润色和翻译 为了确保S
  • 中科院院士:94%中国科研SCI论文发表国外期刊,仅5.88%在国内期刊发表

    2024-11-18
    在2024上海科技与期刊高质量发展大会上,中国科学院院士、上海市科协主席张杰指出:2023年,我国科研人员共发表SCI(科学引文索引)论文73.96万篇,其中只有4.35万篇发表在国内期刊,占比5.88%,其余94.12%的论文都发表在国外期刊上。。 开幕式上,上海市科技期刊学会
  • 励志!安徽“扭扭车少年”在《Applied Intelligence》期刊上发表论文

    2024-11-15
    2024年11月, 张亮在国际人工智能领域高水平期刊《Applied Intelligence》(应用智能)上发表题为《Robot Motion Planning Algorithm Based on Deep Learning Optimization》(基于深度学习优化机器人运动规划的算法研究)的论文。 11月19日,张亮创办的公司首款外骨骼
  • 恭喜!《中国财政》入选长安街读书会学习核心来源期刊

    2024-11-14
    《中国财政》确实被正式选为长安街读书会干部学习的核心来源期刊之一。在2024年10月8日发布的《长安街读书会干部学习核心期刊目录》中,《中国财政》被列为核心期刊之一,其关注点在于中华民族现代文明。因此,可以确认《中国财政》正式入选长安街读书会干部学习核心来
  • 恭喜!上海科技期刊三本齐发,影响因子登顶学科王座

    2024-11-13
    据SCI数据库,2023年世界科技论文总数达248万篇,其中收录中国科技论文74万篇,数量居全球之首,占比30%;排名第二的美国,收录论文53万篇,占比21%。 目前,上海共有科技期刊358本,其中英文期刊82本,占比约20%,是全国平均的两倍;SCI期刊54本,其中Q1区期刊35本。
  • 西安交大:主办期刊《药物分析学报(英文)》入选百强榜单,总排名第七

    2024-11-12
    《2024中国英文科技期刊海外媒体传播影响力报告》的发布,彰显了中国科技期刊在国际舞台上的影响力。西安交通大学主办的《药物分析学报(英文)》(Journal of Pharmaceutical Analysis, JPA)在该报告中取得了显著成就,不仅成功进入百强榜单,而且取得了总排名第七的
回到顶部