基于机器学习的域名数据监控方法

2014-06-06 10:46刘明星李晓东

计算机工程 2014年9期

关键词：域名IP地址决策树

刘明星,金键,李晓东

(中国科学院计算机网络信息中心,北京100190)

基于机器学习的域名数据监控方法

刘明星,金键,李晓东

(中国科学院计算机网络信息中心,北京100190)

域名资源记录被篡改的问题严重危害域名应用。由于该问题具有较强的隐蔽性,亟需一种快速且有效的发现域名危险变化的方法。为此,提出一种基于机器学习算法的域名数据监控方法。在一定数量的域名中选取出资源记录发生变化的域名,通过分析其相关信息生成一个由域名字面特征、正反匹配度等属性组成的元组。以变化是否危险为依据进行类标签人工标记,每个元组和其类标签组成训练集中的一个实例。由分析训练集决策树算法和支持向量机算法建立检测域名系统数据危险变化的分类器。通过十折交叉法验证2个分类器,发现其在域名危险变化判断上具有较强的能力,正确率的加权均值分别达到73.8%和82.4%。

域名系统;安全;机器学习;域名系统监控;决策树;支持向量机

1 概述

作为互联网的重要基础设施,域名系统(Domain Name System,DNS)[1-2]一直为全球互联网的运行提供关键性的基础服务。随着互联网规模爆炸式增长, DNS相关的各种新技术相继出现,如IPv6、多语种域名和DNS安全扩展协议(DNS Security Extension, DNSSEC)[3]等,DNS系统也由此变得越来越庞杂。由于在设计之初对安全性和扩展性考虑欠缺,域名系统在协议、实现和操作上存在着固有的不足与脆弱,进而使其面临很多安全威胁[4]。其中的主要威胁之一是数据损坏,它可能是由权威服务器信息的未经授权更改、域名劫持[5]、递归服务器缓存中毒[4]和人为配置错误[6]等错误造成,会导致域名系统对外提供错误的域名解析数据。

除了对域名应用产生不良的影响,产生错误域名解析数据的数据损坏威胁对用户和域名系统可能造成如下2个方面的影响:(1)DNS应用将被重定向到非目标服务器,这会影响到用户的上网安全或者使他们无法上网。(2)数据损坏威胁可能导致域名系统遭受或多或少的冲击。某些域名应用的访问量巨大,域名的解析量也就随之变得巨大,域名数据一旦发生问题,那么成千上万客户端发送的大量查询请求可能冲击域名系统,甚至整个互联网。一个典型的例子是2009年发生的暴风影音事件[7]。

作为访问域名应用前的一个重要环节,域名系统的安全关系到域名应用的安全。作为域名系统的重要组成部分,域名数据如果被篡改,Web等域名应用必然受影响,如域名指向黑客的Web站点等。相比域名应用被篡改,域名数据遭篡改的影响程度可能更大,影响范围更广。目前关于Web等域名应用防篡改研究工作已有较多积累,但针对域名防篡改的研究仍较为欠缺,这是因为域名被篡改认定很难,第三方没有足够的判断依据,从而无法及时觉察域名遭到黑客的攻击破坏。为了杜绝黑客对域名数据的损坏,有必要开展对域名数据的监测工作。

在域名监控方面,近年来国内研究者进行了一些测量与研究。文献[8]提出了一种通过域名模式匹配来监控可疑域名的方法。但模式匹配是一种相对静态的方法,需要人为参与,这便使其缺乏灵活性、可扩展性和适应性。智能的机器学习算法也开始在域名监控方面得到应用,如文献[9]通过机器学习的方法建立DOS攻击的智能探测系统;文献[10]提出了一种专门适用于DNS服务器的、基于神经网络算法的入侵检测框架和DDoS攻击检测方法。这些工作都是一些入侵检测领域的研究,而本文是作为域名的第三方对域名数据进行监测。

第三方的域名监测研究工作也已经不少。文献[11]通过扫描net域和com域中的域名发现6.6%的二级域允许区传送,并通过对这些区的深入研究发现部分区因为配置不当而造成其服务不理想;文献[12-14]通过自主开发的监测工具SecSpider监测部署了DNSSEC的区,发现了DNSSEC部署过程中的一些问题。与之不同,本文通过数据挖掘的方式找到域名恶意被篡改与域名的一些相关信息之间的隐含联系,从而实现判断域名数据是否被恶意篡改的效果。

本文分析域名的一些相关信息(如whois信息和相关DNS资源记录等),并通过机器学习的方法建立能够判断域名数据的变化是否危险的分类器。

2 域名数据监控方法

本文以域名的A记录变化为例阐述防篡改方法,将有监督学习技术应用于A记录危险变化检测,把检测过程转化成了有监督的机器学习过程,按照机器学习的基本原理将该过程划分为特征定义、训练集获取和模型学习等子过程。对于模型学习过程,首先选取一定数量的域名,选择A记录发生变化的域名进行标记,将这些域名组成一个样本集。通过向监测的递归服务器或权威服务器发送DNS请求,对某些资源记录(集)进行监控,如果发现域名的A记录中发生变化(数据部分中的IP地址变化),对已获取的资源记录和新获取的资源记录(NS记录、Glue记录和 A记录等),以及从其他数据源(如whois数据库等)获得的数据进行综合分析,并提取、统计获得定义的特征,从而形成一个包含一定实例的训练集,然后通过机器学习从这些特征中挖掘对域名劫持判断有用的特征,并建立检测A记录危险变化的模型。即通过该分类器预测域名A记录变化的危险性。

2.1 特征选取

选取合理的特征来建立训练样本,对于模型学习来说至关重要。参考文献[15]分析恶意统一资源定位符时使用的特征,选取的特征如下:

2.1.1 域名字面特征

域名的长度、域名的标号数量、“-”的个数、数字所占比例等。

2.1.2 正反匹配度

分别验证该域名A记录和NS记录中的IP地址是否有PTR记录,它是否与PTR中的指向域名位于同一个二级域。

IP反向解析服务和域名解析服务分属2个互联网角色。IP反向解析是由互联网服务提供商提供,而域名的解析是由域名注册服务商或其他解析服务商提供。正是由于这2种服务分离,如果增删改PTR记录要找ISP,增删改域名的资源记录要找域名注册商或域名解析商。因此,攻击者可能篡改了A记录,但是可能忘记或不能修改IP地址的PTR记录(如果有PTR记录的话)。

根据域名的某个A记录数据部分中的IP地址在其PTR记录中指向的域名与该域名的匹配情况,本文定义一个称为正反匹配度的特征。如果A记录中IP地址有PTR记录,并且两者中的域名同属一个二级域,那么定义正反匹配度为1;如果没有相应的PTR记录,或者不同属一个二级域,那么定义正反匹配度为0。

以域名 www.yahoo.com为例,它在2012年3月份的部分资源记录如表1所示。表1的第2列类型的C代表类型CNAME,A代表类型A,P代表类型PTR。对最后一条A记录中的IP地址做反向查询(结果如表1的最后一行所示)。从表中可见,域名“any-fp3-real.wa1.b.yahoo.com”与域名“yts03.carbon.sp2.yahoo.com”位于同一二级域,那么反向匹配度为1。

表1 www.yahoo.com部分资源记录

分别计算域名变化前后的正反匹配度,并把两者相减,作为正负匹配度。如变化前为1,变化后为0,那么变化值为-1。

2.1.3 TTL波动

TTL是域名资源记录中的一个重要信息。如果黑客篡改了域名数据,总希望将资源记录的TTL值设置得越大越好,而域名真正的管理者大幅改动TTL值的可能性较小。考虑到此,定义一个称为TTL波动的特征。TTL波动是资源记录变化前后的TTL的波动程度。TTL波动表征预判前后TTL的变化程度。

假设变化之前测得的资源记录(集)的TTL是Lo;之后是Ln,那么TTL波动表示为:

变化值(Lo-Ln)反映了变化的程度,对变化值取绝对值保证变化度η非负,绝对值越大,变化的程度越大,所以η与(Lo-Ln)成正比。对变化值取绝对值的目的是忽略掉TTL值是变小还是变大这个信息。假如有2个域名(分别代表A和B),预判前它们的TTL分别是50和500,预判后发现它们的TTL都增加了10。对于A变化却有点大,但对于B来说,TTL的变化并不大,即TTL波动与预判前的TTL大小成反比例关系。而为了让波动的计算有统一的参照标准,规定波动与Lo和Ln中较大的成反比例关系。

2.1.4 网络地址变化度

运营稳定、有技术实力的公司,不会经常地、轻易地在地理位置上、网络上迁移其服务器,即便迁移,地理位置变化和网络变化也会相对比较小,如从当地的联通机房迁移到电信机房。

互联网是一个全球网络,其用户来自地球的各个角落。作为互联网的特别用户,黑客与攻击目标常常不在一个国家,不在一个自治域,不在一个运营商。因此,如果黑客有机会将域名服务器或域名应用服务器指向其控制的服务器,那么其服务器与原服务器的IP地址不管是从其地理位置、地址前缀上,还是其所在自治系统上,都有不同程度的变化。

基于以上考虑,根据A记录变化前后的域名对应的IP地址和其权威服务器的IP地址的地理位置、地址前缀(地址类别)和所在的自治系统(Autonomous System,AS),以及所属的互联网服务提供商(Internet Service Provider,ISP),定义网络地址变化的程度(简称网络地址变化度)。

网络地址属性的变化有如下5种情况:(1)国家变化;(2)ISP变化;(3)AS号变化;(4)地址前缀变化;(5)网内变化。其中,情况(2),情况(3)和情况(4)很好理解;情况(1)是IP地址的国家发生变化;情况(5)是指修改后的IP地址是一个私有地址或0.0.0.0特殊IP地址。显然,这5种变化按照变化程度由大到小的排列。按照这个顺序从前往后检查这些属性的变化,一旦确定为某种变化时,就停止继续检查并记录下来。分别定义5种情况的取值是{5, 4,3,2,1}。需要注意的是,无法判断或查不到的情况是0。

2.1.5 网络性能扰度

作为性能指标,网络环路延时(RTT)是衡量IP端对端网络性能的重要参数。RTT最小值[16]更准确地反映出一定的网络状况。一般来说,对于某一特定测量点,处于不同地理位置和不同网络环境的IP端之间的RTT最小值是不同的,这反映了测量点与IP端之间的网络状况。域名A记录发生变化,意味着其指向的IP地址发生了变化。不同的IP端,与测量点之间的RTT最小值就会有所不同。换句话说,RTT最小值发生了变化,该变化可以一定程度反映出网络环境的变化,某种程度上也能说明目的服务器地理位置的变化。可见,网络性能扰度表征了从测量点到域名对应的网络地址端网络延迟的变化程度。

鉴于网络性能对资源记录变化判断的影响,定义了一个叫作网络性能扰度的特征。所谓网络性能扰度,就是资源记录变化前后的网络连接时间的变化程度。假设变化之前测得是To,变化之后测得RTT是Tn,那么网络性能扰度表示为:

其中,|To-Tn|是To和Tn差值的绝对值;max(To,Tn)是To和Tn中较大的值。从式(2)中看出,网络性能扰度与|To-Tn|成正比,与max(To,Tn)成反比。特别地,当To和Tn都为0时,β等于0。

之所以对记录变化前后的时延差值取绝对值,是因为To和Tn之间的大小关系并不确定,取其差值的绝对值可以保证网络性能扰度为非负。现在假如有2条A记录RR1和RR2,它们在某个变化时刻之前测得RTT最小值分别是T1和T2(T1＜T2),记录变化之后测得的它们变化值同为ΔT,那么RR1的网络性能扰度相比RR2的要大,所以定义性能扰度与To成反比例。

2.1.6 Whois属性

根据域名资源记录变化前后Whois信息(分别查询该域名的二级域域名的Whois信息,记录下),如注册时间、到期时间、最近修改时间、注册商名称、注册人和注册人邮箱等,计算域名的所有度度量、域名权威服务器的转移度、域名持有稳定度、最近修改时长等。

(1)所有度度量

域名字符串、注册人姓名和注册邮箱等三者之间有一些有趣的关联,经常可以看到邮箱的用户名就是姓名的连接字符串。这三者之间的相关度可以用作衡量域名注册信息一致性的手段。考虑到此,定义了一个称为所有度度量的特征。所有度度量是衡量注册人持有该域名的可能程度。

按如下几种情况拼接成字符串:姓名所有单词连接起来的字符串,姓名的每个单词,域名的二级域标号,姓名所有单词组合拼接起来的字符串,姓名首字母组成的字符串。对于中文姓名,需首先转换成拼音。将这些字符串分别与邮箱用户名(邮箱字符‘@'前面的字符串)比对,获得相似度(取值范围是[0, 1])[17]。最后,把最大的相似度作为所有度度量。

(2)域名权威服务器的转移度

某域名(如example.com)的区权威服务器的转移有很多形式,如更换DNS服务商,把权威服务器变更到同一域名解析服务商的另一台(组)权威服务器等,不同的形式对应不同的转移程度,前者要比后者的转移程度高。称转移程度为转移度或转移级别,转移程度越大,转移度越大。域名服务器的转移度表征了域名服务器转移程度的大小,转移度越大域名被攻击的可能性越大。转移级别和转移方式包括以下4种:

1)域名注册商变更

域名所有者通过域名转移[1]的方式将域名从一个域名注册商转移到另外一个注册商。注册机构是否发生变化可以从前后Whois信息查询获得的注册商名字字符串的编辑距离来自动判断。

2)DNS服务商变更

假设域名example.cn的域名解析服务商原本是A,A配置它的dns.example1.cn服务器作为DNS,后来更换为域名解析服务商B,DNS也随之变成dns.example2.cn服务器,这个过程就是DNS服务商更改。尽管DNS服务器的名字发生变化经常意味着DNS服务商发生转移,但并不一定正确。例如DNS服务器expiredns.com和hichina.com就是注册商万网的2个不同的DNS服务器。

3)同一域名解析服务商的权威服务器变更

域名example.cn的DNS服务商原本是A的权威服务器a.example.cn,后来更换到A的另一台权威服务器b.example.cn,就是一个同一域名解析服务商的权威服务器变更例子。

4)权威服务器网络地址变更

当域名的NS记录没有更改,而Glue记录发生变化时,域名的权威服务器网络地址就发生变化。增添了服务器的情况同样可以归为此类。

上文的4种转移方式转移程度从上而下逐渐变大。本文用转移值来衡量转移程度,转移程度越大,转移值越小,从上而下给每种情况赋值1,2,3和4。判断时,按照从上往下的顺序判断,如果确定为一个转移级别,那么停止判断。特别地,如果某一个域名的权威服务器的控制权属于其所有者,那么更改成第三方域名服务商认为是一件非常危险的情况,转移级别很大,把其转移值赋为5;没有变化时转移值设为0。

因为域名可能有不只一台权威服务器(一个服务器很可能对应一个网络地址),发生转移的权威服务器可能不只一台,每个转移的级别也可能有所不同,所以确定所有转移的级别,并把最高的转移级别作为总体的转移级别。转移的服务器台数越多,影响范围和程度越大。

(3)域名持有稳定度

如果域名注册时间离查询时的时间越长,那么域名将被使用的时间可能越长;查询时离过期时间的时间越长,域名注册人使用这个域名提供网络服务的预期时间越长,对该域名上关注度可能越多,同样继续使用的动力更大。除此之外,服务时间越长,该域名的所有者和管理者维护域名的经验也就可能越丰富。

基于以上考虑,本文定义一个称为域名持有度的特征。域名的持有稳定度是指当前域名所有者持有该域名强弱的度量,它取决于域名的注册时间到查询时的时间长度和查询时到过期时间[18]的时间长短,它分别与这两者成正比。

如果Tp是指注册时间到查询时的时间长度,即查询日期与注册时间的差值;Tf是指查询时间到过期时间的时间长度,即过期日期与查询日期的差值,那么某已注册域名的稳定度表示为:

这2个时间都以年为计量单位,零头超过半年则进一年,反之去掉零头。简便起见,k取1。λ的取值范围是{0,1,…}。

(4)最近修改时长

Whois信息中的最近修改时间记录了最近更新域名的注册信息和权威服务器信息的时间。也就是说,如果黑客修改了域名在顶级服务器上NS记录,就会在最近修改时间上得到体现。一般来说,运行稳定和安全的域名很少更改注册信息的,更改时间离现在越近,A记录变化越可能为危险变化。最近修改时长是指最近修改时间到查询时间的时长。

2.1.7 域名服务器特征

分别查询权威服务器域名所在的二级域域名的Whois信息,并记录下其注册时间、到期时间、最近修改时间、注册商名称、注册人和注册人邮箱等信息。使用这些信息计算获得前文提到的所有度度量、域名权威服务器的转移度、域名持有稳定度、最近修改时长等度量,这些度量表征了域名服务器的强壮性。

2.2 训练集获取

从一台DNS递归服务器的解析日志中,提取请求域名组成一个训练集所需的域名集合。为了过滤无A记录(No Data)或不存在(NXDOMAIN)的域名而获得当前被用作Web服务的域名,使用NMAP探测域名集中的域名。为了让训练集中的域名具有更强的代表性,根据域名请求量的大小,通过聚类抽样或分层抽样的方法筛选出少量域名。

周期性地获取域名的资源记录信息、相关Whois信息、网络延迟等基本信息,下载域名相对应的Web页面。当发现某个域名的A记录发生变化,获取该域名的相关信息和对应Web页面,根据它变化前后的域名信息计算获得前文定义的特征,并对这些数据做进一步数据规约和数据清理;根据Web页面的变化情况,对该训练样本进行类标签标注,标志为安全变化或者危险变化。标注标签时参照的标准是:是否返回页面;如果返回页面,检查页面相似度。网页内容发生较大变化,该域名变化标记为危险变化。注意,如果原本通过该域名提供Web服务,而现在却不提供Web服务了,那么发生A记录危险变化的可能性较大。再将这个带标签的训练样本加入到训练集中。

通过不断按照上面的过程收集数据,经过一段时间之后,最终获得了一个实体数为122的训练集。

2.3 训练及评估

下面将分别采用决策树和支持向量机2种分类算法对训练数据进行学习。

(1)决策树分类

考虑到作为一种经常用来评价新分类算法的方法,决策树算法分类精度高,非常适合本文训练二分类分类器。使用weka的J48工具做训练(J48工具是一种 weka中提供的 C4.5[19]决策树算法的开源实现)。

训练获得一棵裁剪的决策树。十折交叉验证方法[20]算得的分类器模型的分类效果如表2和表3所示。

表2 分类训练效果

表3 决策树模型效果指标

从表3中可见,类别1的TP率较小,说明决策树对类别1的漏检率较高,对危险变化发现的能力较差。但是从谨慎判断,减少错误几率的角度来说,这是可以接受的。类别1的FP率非常小,即把安全变化误当作危险变化的可能性非常小,错误地干涉正常域名操作的几率非常小。

(2)支持向量机

使用Weka的支持向量机[21]算法SMO[22],对已获得的训练集进行学习训练,获得一个支持向量机模型。通过十折交叉验证方法获得该模型的分类效果,如表2和表4所示。

表4 SVM模型效果指标

类别 1的 FP率较小,且比决策树小好多(0.053＜0.168),说明错误地把安全变化误当作危险变化的可能性更小。与决策树算法相比,类别1的TP率要高一点,说明漏检率降低了一些。在所有被判断为类比1的实例中,实际为类别0的实例要比实际为类比1的实例多一点。这与训练集中标记为类别0与标记为类比1的比例有关,比例不是1∶1,而是27∶95(约为1/3)。对比危险变化被识别危险变化的概率与安全变化被识别为危险变化的概率,在决策树算法中,前者大约是后者的2.5倍;在支持向量机算法中,前者大约是后者的2.8倍。

从表3和表4中发现,2种算法准确性都非常高。在类别0方面,决策树的准确度达到了83%,支持向量机达到了85%;在类别1方面,决策树的准确度达到了40.7%,支持向量机达到70.6%。这些数字说明了本文方法的有效性。

3 结束语

本文通过分析域名的相关信息判断出域名数据的变化是否危险。为了找到两者之间的隐含关系,将有监督的机器学习技术应用于由域名特征组成的训练集分析当中。另外,本文也证明了DNS的一些特征包含了大量可以用来判断域名数据危险状态的信息。

下一步工作将改进和完善域名危险判断分类器的分类能力,并尝试将本文方法应用于其他的域名资源记录类型。

[1] Mockapetris P.Domain Names-Concepts and Facilities [EB/OL].(1987-11-01).http://www.ietf.org/rfc/ rfc1034.txt.

[2] Mockapetris P.Domain Names-Implementation and Specification[EB/OL].(1987-11-01).http://www. ietf.org/rfc/rfc1035.txt.

[3] Arends R,Austein R,Larson M,et al.DNS Security Introduction and Requirements[EB/OL].(2005-03-15).http://www.ietf.org/rfc/rfc4033.txt.

[4] Santcroos M,Kolkman O M.DNS Threat Analysis[EB/ OL].(2009-02-25).http://www.nlnetlabs.nl/ downloads/se-consult.pdf.

[5] ICANN Security, Stablility Advisory Committee. Domain Name Hijacking:Incidents,Threats,Risks,and Remedial Actions[EB/OL].(2005-07-05).http:// archive.icann.org/en/announcements/hijacking-report-12jul05.pdf.

[6] Pappas V,Xu Zhiguo,Lu Songwu,et al.Impact of Conguration Errors on DNS Robustness[C]//Proc.of ACM SIGCOMM'04.Portland,USA:[s.n.],2004:319-330.

[7] Liu Ziqian.Lessons Learned from May 19 China's DNS Collapse[EB/OL].(2009-11-10).https://www.dnsoarc.net/files/workshop-200911/Ziqian_Liu.pdf.

[8] 王培新,刘颖,陈雨新,等.Web通信中可疑域名监控技术的研究[J].计算机技术与发展,2012,22(4): 231-234.

[9] Samaneh R,Saripan M I,Rasid M F A.Defending Denial of Service Attacks Against Domain Name System with Machine Learning Techniques[EB/OL].(2010-11-01). http://www.researchgate.net/publication/49586608.

[10] Wu Jun,Wang Xin,Lee Xiaodong,et al.Detecting DDoS Attack Towards DNS Server Using a Neural Network Classifier[C]//Proc.of the 20th International Conference on Artificial Neural Networks.[S.l.]: Springer,2010:118-123.

[11] Kalafut A J,Shue C A,Gupta M.Understanding Implications of DNS Zone Provisioning[C]//Proc.of the 8th Conference on Internet Measurement.[S.l.]: Springer,2008:211-216.

[12] Osterweil E,Masse D,Zhuang Lixia.Observations from the DNSSEC Deployment[C]//Proc.of IEEE Workshop on Secure Network Protocols.[S.l.]:IEEE Press,2007:1-6.

[13] Osterweil E,Ryan M,Massey D,et al.Quantifying the Operational Status of the DNSSEC Deployment[C]// Proc.of the 6th ACM/USENIX Internet Measurement Conference.Vouliagmeni,Greece:[s.n.],2008:211-216.

[14] Osterweil E,Massey D,Zhang Lixia.Deploying and Monitoring DNS Security(DNSSEC)[C]//Proc.of the 25th Annual Computer Security Applications Conference.Honolulu,USA:[s.n.],2009:429-438.

[15] Ma J,Saul L K,Savage S,et al.Learning to Detect Malicious URLs[J].ACM Transactions on Intelligent Systems and Technology,2011,2(3):30.

[16] Gige D.Passive Measurement of Network Quality[D]. Zürich, Switzerland: Swiss Federal Institute of Technology,2005.

[17] Levenshtein V I.Binary Codes Capable of Correcting Deletions,Insertions and Substitutions of Symbols[J]. Doklady Academy of Sciences of the USSR,1965,163 (4):845-848.

[18] Daigle L.WHOIS Protocol Specification[EB/OL]. (2004-09-12).http://www.ietf.org/rfc/rfc3912.txt.

[19] Quinlan J R.C4.5:Programs for Machine Learning [M].[S.l.]:Morgan Kaufmann Publishers,1993.

[20] Kohavi R.A Study of Cross-validation and Bootstrap for Accuracy Estimation and Model Selection[C]//Proc.of the 14th International Joint Conference on Artificial Intelligence.Montreal,Canada:Morgan Kaufmann, 1995:1137-1143.

[21] Boser B E,Guyon I M,Vapnik V N.A Training Algorithm for Optimal Margin Classifiers[C]//Proc.of the 5th Annual ACM Workshop on COLT.Pittsburgh, USA:ACM Press,1992:144-152.

[22] Platt J.Fast Training of Support Vector Machines Using Sequential MinimalOptimization[M].Cambridge, USA:MIT Press,1999.

编辑顾逸斐

Monitoring Method of Domain Name Data Based on Machine Learning

LIU Ming-xing,JIN Jian,LI Xiao-dong
(Computer Network Information Center,Chinese Academy of Sciences,Beijing 100190,China)

A threat that Domain Name System(DNS)data is tampered by hackers endangers DNS applications.Due to the hidden characteristic of this threat,a quick and effective method to find dangerous changes in DNS data is needed urgently.Regarding to the problem,this paper proposes a method to monitor the DNS data based on machine learning,by which dangerous change in DNS data can be found quickly.Some domain names whose data are changed are chosen from a number of domain names,and their relevant information is individually analyzed in order to produce a tuple that is represented by a multi-dimensional attribute vector,which contains literal characteristics,forward-inverse match and so on.After that a class is labeled depending on whether the changes are bad or not so that an instance containing the tuple and their class label is built and consequently a training set is built.By analyzing the training set the two classification algorithms,decision tree and Support Vector Machine(SVM),build classifiers,which are used to detect whether changes in DNS data are dangerous or not.The 10-fold cross-validation is used to validate the two classifiers.It is found that the classifiers do well in finding dangerous changes in DNS data,in which the present results show that the classifier can reach a good precision,and their weighted average accuracies are 73.8% and 82.4%.

Domain Name System(DNS);security;machine learning;DNS monitoring;decision tree;Support Vector Machine(SVM)

1000-3428(2014)09-0263-06

TP18

10.3969/j.issn.1000-3428.2014.09.053

国家自然科学基金资助项目(61005029);互联网基础技术开放实验室研究课题基金资助项目。

刘明星(1985-),男,硕士,主研方向:网络安全,下一代互联网技术;金键,高级工程师、硕士;李晓东,研究员、博士、博士生导师。

2013-09-16

2013-11-07E-mail:liumingxing@cnnic.cn