goback
月期刊咨询网
当前位置:首页>>电子技术论文>>正文

计算机类论文范文半监督学习的数据流混合集成分类算法


所属栏目:电子技术论文
发布时间:2014-01-10 17:21:16  更新时间:2014-01-10 17:58:11

已签订领域:化学工程/制药,医学题目:**作为抗癌剂***催化剂**取代苯丙***SCI四区 直击了解更多选题

已签订领域:环境科学-公共卫生题目:用**电***生物传感器**癌症**SCI二区 直击了解更多选题

已签订领域:环境科学-公共卫生题目:**氧化石墨烯纳米***材料的生物传感器***结肠癌生物**癌胚****SCI二区 直击了解更多选题

已签订领域:环境科学-公共卫生题目:聚合物纳米***a-硫辛酸***在神经炎症***应用***临床分析SCI二区 直击了解更多选题

已签订领域:计算机视觉/遥感/智能驾驶/汽车题目:**深度学习***高分辨率遥感***车辆检***SCI三区 直击了解更多选题

已签订领域:企业管理题目:社会交流***领导***倾向***方向SSCI,SCI三区,二区 直击了解更多选题

已签订领域:企业管理题目:**中小企业社交媒体****可持续绩效***因素探析SSCI,SCI三区,二区 直击了解更多选题

已签订领域:环境科学,公共卫生题目:利用硫氨酸***石墨烯纳米***电化学***传感器实现癌胚抗原***SCI二区 直击了解更多选题

已签订领域:环境科学,公共卫生题目:基于抗***纳米复合***高性能***早起癌症诊断***SCI二区 直击了解更多选题

已签订领域:经济,能源题目:***政治冲突****绿色金融、金融**、气***化***SCI四区 直击了解更多选题

已签订领域:经济,能源题目:冲***中能源不安全对***和环境***SCI四区 直击了解更多选题

已签订领域:教育题目:大学生***社交媒体***成绩影响***SSCI三区 直击了解更多选题

已签订领域:教育题目:巴基斯坦***学习实施的***的**SSCI二区 直击了解更多选题

已签订领域:教育题目:大学生对****下网络教学**思***SSCI二区 直击了解更多选题

已签订领域:教育题目:**教师和学生对影响***医疗**效果的****看法SSCI三区 直击了解更多选题

已签订领域:计量经济学题目:**货币、黄金、**和美国***的波动***相互依赖性:**数据的分析SSCI一区 直击了解更多选题

已签订领域:计量经济学题目:东南亚***内**趋同***中等收入**:新**的***SSCI二区 直击了解更多选题

已签订领域:建筑,历史题目:历史景点在***旅游发***中的***影响**(**研究:**历史***)SSCI,SCI一区 直击了解更多选题

已签订领域:领导力,管理题目:量化**领导对角色绩效***响:**冲突与工作自主性***作用SCI二区 直击了解更多选题

已签订领域:信息技术,教育题目:数字***环境对学生学习成绩***:游戏**和***现实在教育***作用SSCI四区 直击了解更多选题

已签订领域:信息技术,教育题目:信息技术***续决策之间的***:创新***识的**作用SSCI二区 直击了解更多选题

已签订领域:信息技术,教育题目:课程**对大学生***发展的影响:学习习惯和***的***作用SSCI一区 直击了解更多选题

已签订领域:信息技术,教育题目:信息技术***与可持续决策**:高等***学生认知***作用SSCI二区 直击了解更多选题

已签订领域:计算机,英语教学题目:英语****学**与人工智能****学习SCI三区 直击了解更多选题

已签订领域:计算机,音乐题目:评价**和音乐**对学生成绩***的影响SCI三区 直击了解更多选题

已签订领域:人体工程,心理学题目:基于预先处理模型***模式人体工程学***女生肌肉骨骼***预防行为*** 直击了解更多选题

已签订领域:人体工程,心理学题目:制定一个***人体工程学**,以识别、优先考虑***职业压力源的*** 直击了解更多选题

已签订领域:人体工程,心理学题目:多重工作**压力和工作***:***工效学方法的混合方法*** 直击了解更多选题

已签订领域:数学,经济题目:数学模型***结构调整和经济转型****研究 直击了解更多选题

已签订领域:数学,经济题目:***时间**数学模型在***媒体营销**中的应用*** 直击了解更多选题

已签订领域:数学,经济题目:***时间**模型在***物流运**能力***研究 直击了解更多选题

已签订领域:数学,经济题目:碳****经济的数学模型****研究 直击了解更多选题

已签订领域:农村经济题目:农****社区**发展***分**SCI四区 直击了解更多选题

已签订领域:农村经济题目:创业***对乡村****发展的****SCI四区 直击了解更多选题

已签订领域:农村经济题目:农村创业****的空间*****究SCI四区 直击了解更多选题

已签订领域:医学,电化学题目:纳米颗粒*****及其在癌症****和重金属*****检测中的应用SCI三区 直击了解更多选题

已签订领域:医学,电化学题目:基于*****前列腺癌药物氟****检测方法的*****腺癌治疗SCI二区 直击了解更多选题

已签订领域:医学,电化学题目:气海***********金纳米颗粒的新型****************粘土及其对胃癌********************抗癌SCI二区 直击了解更多选题

已签订领域:医学,电化学题目:基于抗***********GCE纳米***********材料的高性能*******************早期癌症SCI二区 直击了解更多选题

已签订领域:医学,电化学题目:用******电化学生物传感器*****癌症***************SCI二区 直击了解更多选题

已签订领域:医学,电化学题目:基于*****石墨烯纳米****材料的生物传感******用于测定结肠*****生物*****SCI二区 直击了解更多选题

已签订领域:医学,电化学题目:聚合***纳米复合电极*****疏辛酸电化学检测*********SCI二区 直击了解更多选题

已签订领域:医学,电化学题目:利用****酸/**糖**石墨烯纳米复合修饰的电化学*****SCI二区 直击了解更多选题

已签订领域:环境能源,绿色投资题目:环境能源、绿色投资、城市化和环境类方向SCI三区 直击了解更多选题

已签订领域:计算机,英语教学题目:英语教学**人工智能***习SCI 直击了解更多选题

已签订领域:计算机,音乐题目:评价**和音乐形式*学生***影响SCI三区 直击了解更多选题

已签订领域:经济,绿色投资题目:***能源效率***化之间的***SCI三区 直击了解更多选题

已签订领域:经济政策题目:***阐明**印度经济***的关系SCI三区 直击了解更多选题

已签订领域:经济,金融题目:***国家的能源***重***SCI 直击了解更多选题

已签订领域:经济,金融投资题目:***融新之间***直接投资***SCI三区 直击了解更多选题

已签订领域:经济,数学,统计学,管理学题目:非***想重限制下***袭评价***SSCI四区 直击了解更多选题

已签订领域:经济,数字,管理学题目:基干***生产系统***SSCI四区 直击了解更多选题

已签订领域:农业,土壤科学题目:不同***有机覆盖***养分循环SSCI 直击了解更多选题

已签订领域:电力与能源系统,管理题目:pv***氢定价的***随***型稀SSCI,SCI二区 直击了解更多选题

已签订领域:建筑规划,计算机题目:使用***因子分析法***可持续***SCI三区 直击了解更多选题

已签订领域:工程技术,纺织工程,材料科学题目:甘***淀粉酶的提取***退浆中的应用SCI四区 直击了解更多选题

已签订领域:渔业,鱼类生理学题目:饲料***镉毒性的交互***生长***病理学***SCI二区 直击了解更多选题

已签订领域:渔业,鱼类生理学题目:****鱼水源***起的生******SCI三区 直击了解更多选题

已签订领域:金融,环境经济题目:*****预算在能效、绿色***的作用SCI 直击了解更多选题

已签订领域:应用数学/计算物理题目:***非线性库***自相位调制***SCI三区 直击了解更多选题

已签订领域:计算机,医学检测题目:***COVID-19***力***算法***决策SCI三区 直击了解更多选题

已签订领域:计算机,物联网,智慧城市题目:基于***物联网****算法SCI三区 直击了解更多选题

  数据流分析和挖掘在数据挖掘和机器学习领域是一个具有挑战性的研究,它已经受到了计算机智能研究者的广泛关注[1-3]。与传统的静态数据相比,数据流具有动态性、高维度、实时性、无限性、顺序性和高速到达等特点[4],正是这些特点使得传统方法难以实现数据流的挖掘。而数据流分类是数据流挖掘的其中一种,它是从大量数据样本中提取知识和信息的过程,而这些样本中隐含的概念和知识可能随着时间和环境不断的发生变化,即存在的概念漂移[5]给研究带来了挑战。因此,一个高效的数据流分类算法需要在有限的时间和内存下以相当好的准确度完成任务,并且能够自适应地处理概念漂移。

  摘要:当前已有的数据流分类模型都需要大量已标记样本来进行训练,但在实际应用中,对大量样本标记的成本相对较高。针对此问题,提出了一种基于半监督学习的数据流混合集成分类算法SMEClass,选用混合模式来组织基础分类器,用K个决策树分类器投票表决为未标记数据添加标记,以提高数据类标的置信度,增强集成分类器的准确度,同时加入一个贝叶斯分类器来有效减少标记过程中产生的噪音数据。实验结果显示,SMEClass算法与最新基于半监督学习的集成分类算法相比,其准确率有所提高,在运行时间和抗噪能力方面有明显优势。

  关键词:数据流,半监督学习,集成分类,概念漂移,混合集成

  在已有研究中,解决概念漂移问题的方法概括起来有三种[6]:实例选择、实例加权和集成学习。近年来研究最热的当属集成学习方法[7-9],它克服了运用滑动窗口方法参数难以确定的缺陷。尽管集成学习已经取得了相当客观的研究进展,但它是典型的有监督学习,需要大量的类标数据进行训练学习。而且标记数据是一个耗时又费力的工作,因此便有了近年来半监督学习的研究[10-12],它通过引入未标记数据来提高分类器的泛化性能。可以说近年来集成学习和半监督学习的研究都有了新的突破,但将两者融合来改善分类性能的研究还是凤毛麟角。2002年Bennett等人[13]提出使用标记和未标记数据共同构造集成分类模型,文中主要运用Boosting方法,它的缺点在于没有一种机制来控制对无类标数据标记的错误率;在文献[14]中Woolam等人融合半监督聚类和集成方法先将无类标数据进行标记,当标记数据占到一定比例时再对数据进行聚类,再运用类标传播技术为剩余无类标数据进行标记,最后更新集成分类器,这样当数据量很大时类标传播会耗费[Ο(n3)]的时间。

  基于上述研究中存在的缺陷,该文将集成学习和半监督学习有效的融合,提出一种基于半监督学习的混合集成分类算法(Semi-SupervisedlearningBasedMixtureEnsembleClassifier,SMEClass),由于引入未标记数据,使得集成分类器的准确性和泛化性都得到了改善,而且在对未标记数据进行标记时使用集成分类器和在数据块已有的类标数据集上训练的分类器一同进行多数投票,更增加了被标记数据的可信度。同时,在算法中也使用了概念漂移检测和噪声过滤的机制,以便能够更有效的适应含噪音和概念漂移的数据流分类。

  1SMEClass算法模型的训练和分类的流程

  数据流分类挖掘面临着两大难题,一是概念漂移和噪音的影响,二是数据流实例标记的高额代价,很少有算法能高效地实现两者的兼顾,因此在标记样本少的情况下,既能兼顾概念漂移和噪音影响,又能确保分类的精度将是一个挑战,SMEClass能够解决这些问题,它假设数据流中的样本数据有一部分是随机标注的,然后使用我们的集成方法来对这些数据中的未标记实例进行标记,以增加分类的性能,而且在训练过程中进行了漂移监测和噪音过滤。

  由于数据流的特性,在此算法中使用C4.5和Na?veBayes作为基础分类器来构建混合集成模型,在每个数据块上使用类似于self-training的方法来进行半监督学习。

  首先对方法中涉及到的符号进行说明:如表1所示。

  2SMEClass算法

  2.1算法的合理性论证

  数据块到达后,用其中的有标记数据训练一个C4.5分类器,使用这个分类器和集成分类器一同对未标记数据进行预测,如果预测错误率小于随机错误率,则将这个预测类标作为此数据的类标记。在最坏的情况下,当有噪音实例时,如果拥有足够的类标数据,就能降低分类的错误率,为了达到这样的效果,借鉴了文献[16]中的思想。

  2.2算法的执行过程

  3数据流变化的检测和识别

  3.1概念漂移的检测

  3.2噪声数据的过滤

  为了降低噪音数据对概念漂移检测的影响,集成模型中增加了一个朴素贝叶斯分类器,这是因为Na?veBayes算法简单、速度快、准确率高,还有一个重要的特性就是对噪音数据相当敏感,利用它的统计特性,能够及时地发现数据中的噪音,以达到噪音过滤的效果。

  使用这个计算方法,在[K+1]个分类器进行投票时,如果实例被一半以上的决策树分类器和Na?veBayes分类器同时分类错误,那么概念就存在潜在的漂移,将分类错误的实例放入缓冲区;反之,认为是噪音,不用其构建新的分类器,这样就减少了那些噪音数据对漂移检测的影响。

  4实验及结果分析

  基于人工数据集、UCI提供的真实数据集和已有的半监督集成分类方法SEClass[15]进行对比测试。分别从算法的准确率、运行时间和可扩展性三个方面验证SMEClass方法的有效性。实验运行环境为:1.73GHz英特尔奔腾双核PC机,1GB内存,WindowsXP操作系统。

  为了实现算法,在实验中使用MOA平台,SMEClass的参数设置如下:[K=8](基分类器个数),[d=5000](数据块大小);SEClass参数如下:[L=8](基分类器个数),[K=50](微簇个数),[M=5000],[e=0.9]。采用先测试再训练的顺序,这样可以有效显示模型的泛化能力。人工数据集包括HyperPlane、RandomRBF、RandomTree、SEA和Waveform。具体构造见文献[9],真实数据集采用UCI提供的ForestCovertype。

  表2显示了数据集的相关信息,这里对数据集分成大小固定为1000的数据块,使他们分批到达来模拟数据流的特性。

  4.1算法准确率分析

  算法的准确率如表3所示,由于现实生活中获得已标记数据代价太大,在实验数据集中我们只利用[20%]的已标记数据,其余[80%]的数据是未标记的,而且在实验过程中增加了噪音数据和噪音属性,以测试SMEClass算法对噪音数据的过滤能力和对含噪音属性数据集的学习能力。

  由于文献[15]中有两个属性权值处理方式,SEClass-I在训练中不调整属性权值,SEClass-II在训练迭代过程中动态调整属性权值,通过对比实验结果可以发现SMEClass和SEClass-II的准确率较高,由于SEClass-II动态调整属性权值可以减少噪音属性的影响,而SMEClass是采用的C4.5决策树分类模型,也能实现这一点,叶节点在分裂的过程中会选择具有最大增益率的属性进行分裂,这样每次都能选择最重要的属性。而且SMEClass采用的贝叶斯分类器还能够有效降低噪音数据对准确度的影响,而SEClass没有考虑噪音数据的影响,因此在同时含有噪音属性和噪音数据的情况下,SMEClass的分类准确率要略胜一筹。

  4.2算法的运行时间和可扩展性

  在人工数据集RandomRBF上测试SMEClass算法和SEClass算法,改变数据集的属性维度[d]来测试两个算法在高维数据情况下的运行时间,从而检验算法的可扩展性。实验结果如图2所示,纵坐标代表算法训练时间和测试时间之和。

  观察实验结果,两个算法的运行时间都随属性量的增加呈线性增长趋势,这是因为在训练基本分类器和测试过程中他们都是和属性数量成线性关系的,但SMEClass的时间明显少于SEClass,这是因为SEClass算法在聚类过程中需要频繁计算实例间的距离,浪费了大量的时间,而SMEClass算法不存在这样的问题,因此在时间上有明显优势。这说明SMEClass算法在处理高维数据流时比较稳定,具有良好的可扩展性。

  5结束语

  针对数据流类标数据获取困难这一现状,该文提出将集成学习和半监督学习有效结合的一种分类算法SMEClass,算法在数据块上采用类似于self-training的学习方法将置信度高的无类标数据赋予标记后加入类标集来改善基分类器的性能,由于在标记过程中使用了集成分类器的多数投票机制,这使加入的无类标数据更加可靠,而且增加了一个Na?veBayes分类器用来去除数据所含噪音,及时更新集成分类器以适应概念漂移。

  实验表明,与基于聚类的半监督数据流集成分类算法SEClass相比,SMEClass算法具有更高的准确度和较强的抗噪性,而且免去了存储大量微簇的空间,且运行时间随属性维度的增加呈现线性增长,具有一定的可扩展性,因此本文的算法能够用于高维数据流分类问题。

  参考文献:

  [1]LiaoSH,ChuPH,HsiaoPY.Dataminingtechniquesandapplications-Adecadereviewfrom2000to2011[J].ExpertSystemswithApplications,2012,39(12):11303–11311.

  [2]ReadJ,BifetA,HolmesG,PfahRINGERB.Scalableandefficientmulti-labelclassificationforevolvingdatastreams[J].MachineLearning,2012,88(1-2),243–272.

  [3]白雪冰,王宝军.数据流分类算法分析[J].电脑知识与技术,2012,8(11):2445-2446.

  [4]ZliobaiteI.Learningunderconceptdrift:anoverview[R/OL].Technicalreport,VilniusUniversity,2009.http://arxiv.org/pdf/1010.4784v1pdf.

  [5]WidmerG,KubatM.Learninginthepresenceofconceptdriftandhiddencontexts[J].MachineLearning,1996,23(1):69-101.

  [6]HoS-s,WechslerH.AMartingaleframeworkfordetectingchangesindatastreamsbytestingexchangeability[J].IEEETransactionsonPatternAnalysisandMachineIntelligence,2010,32(12):2113-2127.

  [7]ScholzM,KlinkenbergR.AnEnsembleClassifierforDriftingConcepts[C]//Proceedingsofthe2ndInternationalWorkshoponKnowledgeDiscoveryinData

  Streams.Portugal:Porto,2005:53-64.

  [8]AggarwalCC,HanJ,WangJY,etal.AFrameworkforOn-DemandClassificationofEvolvingDataStreams[J].IEEETransactionsonKnowledgeandDataEngineering,2006,18(5):577-589.[9]BieftA,HolmesG,PfahringerB,etal.NewEnsembleMethodsforEvolvingDataStreams[C]//Proceedingsofthe15thACMSIGKDDInternationalConferenceonKnowledgeDiscoveryandDataMing.France:Paris,2009:139-148.

  [10]ChapelleO,ScholkopfB,ZienA,editors.Semi-SupervisedLearning[M].Cambridge:MITPress,2006.

  [11]ZhuX.Semi-supervisedlearningliteraturesurvey[R/OL].TechnicalReport1530,DepartmentofComputerSciences,UniversityofWisconsinatMadison,2006.http://www.cs.wisc.edu/jerryzhu/pub/ssl_survey.pdf.

  [12]ZhouZH,LiM.Semi-supervisedlearningbydisagreement[J].KnowledgeandInformationSystems,2010,24(3):415-439.

  [13]BennettK,DemirizA,MaclinR.Exploitingunlabeleddatainensemblemethods[C]//Proceedingsofthe8thACMSIGKDDInternationalConferenceonKnowledgeDiscoveryandDataMining.Canada:Edmonton,2002:289–296.



月期刊平台服务过的文章录用时间为1-3个月,依据20年经验,经月期刊专家预审通过后的文章,投稿通过率100%以上!
  • SCI/SSCI一区>CSSCI/C刊>北大核心>本科学报>普刊,看你有资格选哪个?

    2025-07-23
    在学术研究领域,期刊的选择对于研究人员来说非常重要,不同层次的期刊在学术影响力、认可度、权威性、含金量、学术价值等方面存在显著的差异性,正如 SCI/SSCI一区>CSSCI/C刊>北大核心>本科学报>普刊 ,这一顺序体现。为了更好的帮助你了解自身可能适合选择的期刊
  • 2025年河南省工程系列水利水电专业(中/高级)职称申报条件

    2025-07-23
    工程系列学科众多,作者在选择水利水电专业期刊发表论文时,一定要确保符合单位文件要求,以及论文方向与期刊一致。今天在这里为大家介绍介绍 2025年河南省工程系列水利水电专业(中/高级)职称申报条件 ,供大家参考: 一、水利水电专业 水利水电专业分为科研设计、工
  • 中华医学超声杂志(电子版)是不是核心?北大核心+CSCD

    2025-07-23
    《中华医学超声杂志(电子版)》 是医学超声专业学术电子期刊,具有较高的学术影响力和认可度,审稿周期较快。而且该核心期刊被多个数据库收录,目前是北大核心期刊和CSCD期刊,具体详情如下: 1、期刊的基本信息 主 管:中华人民共和国国家卫生健康委员会 主 办:中华
  • 选刊必看!sci期刊分区和影响因子哪个更具参考价值

    2025-07-22
    在选择sci期刊过程中,影响因子和期刊分区是必不可或缺的参考工具,但只是众多因素中的一个,研究人员需要综合自身研究领域、内容和期刊的具体要求考虑。那么, sci期刊分区和影响因子哪个更具参考价值 ?两者参考价值取决于你的核心需求,国内绝大多数单位考核标准中
  • 2025年近期热门EI学术会议一览表

    2025-07-22
    2025年学术会议众多,参会人员可根据专业领域查看合适的学术会议,并在截稿之前完成投稿。以下是为大家介绍的 2025年近期热门EI学术会议一览表 ,供大家参考: 1、第五届智能交通系统与智慧城市国际学术会议(ITSSC 2025) 2025 5th International Conference on Intel
  • 川北医学院:本科生履历“逆天”顶刊发了7篇SCI

    2025-07-18
    7月17日,川北医学院通报调查结果,这名本科生在奖项申请答辩的PPT里,成果表述不严谨引发质疑。 本科生履历逆天 网友直呼罗博士 网传的答辩PPT里,川北医学院口腔医学院2022级学生罗子甯的成绩单让人眼花缭乱:兼任多个顶级期刊审稿人,以第一作者或通讯作者身份,在
  • 7所高校!关闭订购数据库,有你学校吗?

    2025-07-07
    6月24日,福州大学图书馆发布题为《关于停止订购爱思唯尔(Elsevier)ScienceDirect 全文期刊数据库的通知》公告,据公告,福州大学已暂停续订爱思唯尔 ScienceDirect 全文期刊数据库。 公告称:近年来,爱思唯尔数据库价格每年涨幅为 8%,2025 年采购该数据库预算将达
  • 最新!韦东奕晋升北大长聘副教授,学术成果显著加分!

    2025-07-01
    近日,有网友晒出北京大学数学科学学院助理教授韦东奕的公示材料照片,称韦东奕将成为北大副教授,长聘日期从2025年8月1日开始。 2019年12月,被聘为北京大学助理教授,北京大学数学科学学院微分方程教研室研究员。同年,韦东奕与田刚院士等人的合作论文Small gaps of
  • 青大附院与北京大学肿瘤医院合作研究成果在《柳叶刀》全文发表

    2025-06-24
    近日,青大附院肿瘤医院院长、市北院区院长邱文生教授与北京大学肿瘤医院专家作为共同第一作者的合作研究成果,在顶级医学刊物 《 柳叶刀 》(The Lancet) 全文发表。该研究为全球首个CLDN18.2 CAR-T胃癌随机对照研究(CT041-ST-01),相关研究成果同步在2025年美国临
  • 核苷酸抗衰延寿重大成果:登上国际权威期刊《Advanced Science》IF:14.3

    2025-06-14
    北京大学营养与食品卫生学系教授李勇科研团队完成的外源核苷酸抗衰老大样本人体试验成果。在IF:14.3的国际权威期刊《Advanced Science》刊登。 项目研究采用食用酵母酶解真核细胞而得到的核苷酸,证实了外源核苷酸干预可显著降低受试人群DNA甲基化年龄达3.08岁,为核
回到顶部