基于决策树的二维码恶意网址检测方法
所属栏目:信息安全论文
发布时间:2014-02-19 11:12:58 更新时间:2014-02-19 11:30:56
二维码(Two-dimensionalbarcode)是在条码技术基础上,在二维平面上按一定规律构造黑白相间的图形用以记录信息,通过输入设备读取几何形体,并识别处理其所表示的信息。
【摘要】二维码技术应用已经进入大众生活,同时也逐渐成为恶意软件传播的新途径。面向二维码中URL,提出二维码恶意网址决策树智能检测方法。利用恶意网址和正规网址,提取网址特征,构建特征向量,进而构建决策树。进一步对网址特征提取及决策树选择进行了优化,实例测试结果表明系统在对恶意网址识别的响应速度和准确率方面取得了良好的效果。
【关键词】二维码,恶意网址,智能检测,决策树
1引言
恶意网站是指将木马、病毒等恶意程序种植在网页内,通常没有任何表露恶意性质的外部标志,通过伪装的网址服务内容诱导用户访问该网站,攻击者经常使用网站执行网络钓鱼攻击或分发恶意软件。
手机与二维码的结合拓展了二维码的应用,随着互联网应用的发展,手机拍照二维码获取网址使手机用户浏览网页信息更加方便。同时,二维码逐渐成为恶意软件新的传播途径,针对手机等移动用户的恶意钓鱼网站越来越多。当用户扫描输入存有恶意网址的二维码时,用户的手机可能被引导访问钓鱼网页、甚至被安装恶意插件,结果会造成用户资料泄露、用户账户密码被盗等安全问题。这些恶意网页对用户手机构成巨大威胁。然而,二维码表面仅是图片,单凭图片用户不能得知当前二维码所存的网址所对应的网站是否具有恶意行为。
本文主要针对手机用户上网、面向二维码URL,结合机器学习、引入决策树算法,提出恶意网址智能检测系统。针对二维码所存的网址进行识别测试和过滤,以保证用户访问安全的网页。
2恶意网站的现有研究和分析
目前检测、防范恶意网站的方法有恶意网页分析技术、SSL证书分析技术、黑白名单技术等。网页分析技术是研究最深入、研究领域最广、准确率最高的方法,主要包括静态特征检测、动态特征检测、以及基于统计与特征分析的启发式检测技术等。静态特征检测是指从文本角度分析网页的HTML语句、网页内嵌的JavaScript脚本、Active插件实例化等,主要通过特征码匹配的方法实现检测。该方法简单有效,但主要缺陷在于只能用于识别已经经过样本采集的已知恶意网页、对未知的恶意攻击则无能为力,而且即使是已知的恶意代码、通过简单的加壳或加密即可逃过该类策略的检测。同时,由于新型木马以及变形木马的产生速度越来越快,及时快速地采集木马特征也是一项具有挑战性的任务。
动态特征检测是指实时监控网页从预载入到整个运行过程中的所有行为,从而判断其是否为恶意代码网页。动态分析把恶意网页当作一个黑匣子,不再分析它的语句和执行流程,而仅测试分析其行为。由于行为分析必须让恶意脚本或者实际的恶意网页完全把行为展示出来,系统会遭受到不同的攻击,因此行为分析系统一般运行在VMware虚拟机上,以使得系统受到损害时能够迅速恢复。
基于统计与特征分析的启发式检测技术是指在已有特征值识别的基础上,根据总结的恶意代码样本经验,在没有符合的特征值比对时,根据代码所调用的API的函数情况,如频率、组合等,来判断网页是否可疑。这种方法构造的系统分为学习和检测两个阶段,在学习阶段中需要有正规网页和恶意网页训练集,学习得到一个阀值,在检测阶段根据这个阀值判断某个网页是否为恶意网页。合法的商业网站通常会对安全敏感的网页启用SSL安全连接机制,以防止信息在传输过程中被窃听、篡改。安全敏感网页的SSL相关信息,包括是否启用了SSL安全连接、颁发SSL证书的CA是否权威可信、SSL证书是否过期、证书中的识别名是否与网址的身份相符等,也可作为识别网址真伪的依据。但是,这种方法在于只有提交用户账号密码的网页才能使用这种技术,而且容易产生误判。
黑名单技术是将所有已经发现的恶意网址记录到一个地址列表、即所谓的黑名单中,据此判断用户所访问的网址是否为恶意网址。黑名单技术实现简单,但其问题在于及时更新黑名单十分困难,现在的浏览器厂商大多是采用这种做法,在用户端建立黑名单库,每隔几天更新一次。这种方式作为浏览器识别恶意网址是相对最优的方法,其缺点在于对于未知网页缺乏识别能力。
目前,手机等移动端的计算能力相对于PC机尚有差别,专门针对手机的恶意网址检测方法不多,基本采用专家系统规则匹配方法。如果将现有的恶意网站检测技术应用到二维码恶意网站检测中来,检测恶意网站的主要方法多数需要进入网页,目前手机上不支持沙箱技术,在检测过程中很可能使用户信息遭受各种安全风险。
3基于决策树的恶意网址检测方法
3.1恶意网址智能检测方法概述
本文提出通过对二维码存有的网址URL进行智能检测,避开检测过程中用户信息遭受威胁带来的安全风险问题,达到检测恶意网址的目的。考虑到客户端跨平台应用以及手机计算资源等实际问题,利用WebService技术将恶意网址智能检测算法配置成服务的方式、部署到Web服务器上,提供服务器和客户端之间的信息交换,使系统对恶意网址识别的响应更加快捷、适用范围更加广泛。
决策树算法在机器学习和数据挖掘领域一直受到广泛重视,算法通过对训练集的学习,挖掘出实用规则,经测试集对性能测试并调整后、用于对实际数据进行预测。本研究通过收集大量正规网址和恶意网址数据、建立类库,抽取恶意网址URL特征、建立数据集,经过反复训练,构建决策树,经过修枝剪枝对特征进行优化,最终形成用于判别二维码恶意网址的决策树算法。
系统由服务器和客户端两部分组成,服务器端主要功能包括检测二维码恶意网址的决策树算法、在数据库中存取收集积累的数据及算法所利用的相关数据、网址数据接收、检测结果信息回传,主要使用WebService技术和决策树算法;客户端分为手机等移动端客户和PC客户,主要功能包括二维码识别、URL传输、以及识别结果提示,主要使用WebService接口、二维码识别组件等技术。
3.2数据集的构成
依据统计学思想进行分析,把网址URL解析成12个属性,包括网址的后缀(Name)、长度(Length)、前缀(Prefix)、IP地址(ip1,ip2,ip3,ip4)、点的个数(Dot)、是否有大写字母(Captial)、是否有数字(Number)、是否有特殊符号(Symbol)、是否为恶意网址(Outcome),并将其表示为向量形式。
3.3决策树算法训练流程
决策树的总体训练过程如图1所示。
1)设S是s个数据样本的集合。假定类标号属性具有m个不同值,定义m个不同类Ci(i=1,2,...,m)。设si是类Ci中的样本数。对一个给定的样本分类、所需要的期望信息如下:
I(s1,s2,...sm)=-■pilog■pi
其中pi是任意样本属于Ci的概率,并用■估计。
2)设属性A具有v个不同值{a1,a2,...,av}。用属性A将S划分为v个子集{S1,S2,...,Sv},设Sij是子集Sj中类Ci的样本数。由A划分成子集的熵表示如下:
E(A)=■■i(S■,S■,...,S■)
3)在A分枝将获得的信息增益表示为:
Gain(S,A)=i(S■,S■,...,S■)-E(A)
4)用信息增益率进行属性选择,信息增益率定义为:
GainRatio(S,A)=■
分裂信息SplitInfo(S,A)代表了按照属性A分裂样本集S的广度和均匀性。分裂信息定义如下:
SplitInfo(S,A)=-■■log■■
其中,S1到Sc是c个不同值的属性A分割S而形成的c个样本子集。
3.4决策树算法的种类选择
目前决策树的典型算法有ID3、C4.5、CART、J48等,不同的决策树会影响系统判别的准确度。
首先对建立好的训练集进行预处理,即对非数值型的属性进行离散化,并优化属性。之后对训练集进行分类回归,采取十折交叉验证的方法,将数据集分成10份,轮流将其中9份做为训练数据、1份做为测试数据进行实验。每次实验都会得出相应的正确率,将10次结果正确率的平均值做为对算法精度的估计。运用不同的决策树算法进行训练,根据设置的实例情况,共选择了10种决策树进行对比分析,实验结果如图2所示。结果表明,J48决策树算法的正确率最高,所用的属性集为最优的属性组合,其正确分类比例为94.96%。
3.5不同属性组合的选择
不同的属性组合同样对预测结果产生很大影响。为提高算法的速度和精度,避免对一些作用小的属性进行分析而增大系统负荷,选择不同属性组合进行测试,得到最优的属性组合。参考测试决策树算法时每个决策树最后形成的决策树中的属性,对12个属性进行不同的组合,测试不同组合利用J48决策树算法的正确率。表1所示的测试结果说明,第8行属性组合、即(name、length、dot、Ip1、Ip2、Ip3、Ip4、prefix)的正确率最高,且形成决策树的时间最短。
4实验结果与分析4.1实验环境
系统的应用环境分为服务器、PC客户端、智能手机客户端,网络环境包括联通或移动3G网络、WiFi、校园无线局域网、校园LAN等。
利用weka工具实现智能算法,算法中的重要参数设置如下:为正规网址和恶意网址,划分为12,设为126,不同的属性值v的取值不同,训练集与测试集交叉验证重叠数为10。
4.2结果与分析
实际检测中,二维码恶意网址数据取自近一个月的瑞星安全日报共计66个,正规网址数据取自hao123网址大全共计60个。126个实验数据有7个返回错误的结果,测试准确率为94.5%。60个正规网址实验数据,有5个返回错误的结果,误报率为8.4%。66个二维码恶意网址测试数据,有2个返回错误的结果,有17个URL失效,49个URL有效,漏报率为4.0%。
相同的测试内容使用“快拍二维码”进行测试,126个测试数据测试准确性为71.5%,66个二维码恶意网址实验数据有36个返回错误结果,漏报率为54.5%。60个正规网址实验数据,没有返回错误结果,误报率为0%。
本系统产生误报的原因在于选取的正规网址大部分是小网站、游戏网站,其某些URL特征跟恶意网站网址的特征类似。本系统漏报率只有4.0%,说明本系统对于未知的恶意网址的判别率很高。由于“快拍二维码”使用的是黑名单技术,对于未知的恶意网址判别率非常低。实验数据表明,本系统对二维码恶意网址检测具有良好的效果。
5结束语
目前,手机等移动端的计算能力相对于PC机尚有差别,专门针对手机的恶意网址检测方法不多,基本采用专家系统规则匹配方法。本文面向二维码中URL,提出二维码恶意网址决策树智能检测方法。利用恶意网址和正规网址,提取网址URL特征,构建特征向量,经过反复训练,构建址决策树,进一步对网址特征提取及决策树选择进行了测试优化,最终形成用于检测二维码恶意网址的决策树算法。运用WebService技术实现跨平台的恶意网址智能检测系统。实例测试结果表明系统在对恶意网址识别的响应速度和准确率方面取得了较好的效果。
参考文献
[1]许统.手机二维码在国内的发展及应用[J].电脑与信息技术,2011,19(3):62-63.
[2]刘晓.五大威胁危害网络安全[J].保密科学技术,2013,7:68.
[3]徐国辉,陈婕娴.手机二维码技术原理及应用[J].信息与电脑,2013,1(1):18-19.
[4]ZhuangW,JiangQ.Intelligentanti-phishingframeworkusingmultipleclassifierscombination[J].JournalofComputationalInformationSystems,2012,8(17):7267-7281.
[5]JustinMa,,LawrenceK.Sauletal.BeyondBlacklists:LearningtoDetectMaliciousWebSitesfromSuspiciousURLs.Proceedingsofthe15thACMSIGKDDInternationalConferenceonKnowledgeDiscoveryandDatamining.2009.
[6]唐迪,孙瑞志,向勇等.基于Web服务的异构工作流互联接口设计[J].计算机应用,2013,33(6):1650-1653,1712.
[7]黄宇达,范太华.决策树ID3算法的分析与优化[J].计算机工程与设计,2012,33(8):3089-3093.
[8]HallM,FrankE,HolmesG,etal.Thewekadataminingsoftware:anupdate[J].SIGKDDExplorations,2009,11(1):10-18..
相关期刊推荐:《中国信息界》
《中国信息界》杂志由国家发展和改革委员会主管,国家信息化专家咨询委员会指导,国家信息中心支持,中国信息协会主办。《中国信息界》杂志是以“宣传信息化、推进信息化”为宗旨;以“学术、理论、深度、全面”为鲜明特征;以反映信息化与工业化融合的大背景下我国信息化各领域的学术研究成果为主要内容;以国内外从事信息化的教育、科研、管理等各方面工作的人士为核心读者的国家级信息化权威学术期刊。邮发代号:82-706。
《中国信息界》栏目设置
信息化战略、信息化政策、信息化管理、电子技术及应用、数控技术、传媒科学、电讯技术、电子政务、电子商务、信息服务业、网络建设、数据库建设、城乡信息化、企业信息化、信息安全、信息化立法、国防信息化、制造业信息化、教育信息化、电化教学、案例集锦、课题报告、调研报告、学子园地、海外论文。
《中国信息界》收录情况
本刊全文收录于万方数据库、CNKI中国期刊全文数据库、中文科技期刊数据库。
月期刊平台服务过的文章录用时间为1-3个月,依据20年经验,经月期刊专家预审通过后的文章,投稿通过率100%以上!