社交僵尸网络发展综述

2022-08-12 02:29邹福泰郭万达李林森

计算机工程 2022年8期

葛昕，邹福泰，郭万达，谭越，李林森

（1.上海理工大学信息化办公室，上海 200093；2.上海交通大学电子信息与电气工程学院，上海 200240）

0 概述

社交网络为人们提供了模拟现实生活的社交平台，已成为现代社会建立社会关系的重要方式。近年来，世界各国主要的网络社交平台用户数量不断提升，以我国的新浪微博平台为例，截至2017 年9 月，微博单月内活跃用户数量接近4 亿，单日内的活跃用户近2 亿。微博具有用户数量大、消息传播速度快等特点，已成为人们讨论新闻、分享观点的重要平台之一。文献［1］研究了即时信息对微博热点新闻进行情感分类的方法，分析不同人对于相同事件的态度。这类研究针对的是现有社交平台的热点问题，具备很高的社会价值。

随着社交网络的流行与大量用户的涌入，社交网络集中储存了大量的用户个人信息，这些信息包含用户的邮箱、电话号码、兴趣爱好、家庭住址等用户的隐私信息。此外，攻击者发现社交网络中的部分用户安全意识匮乏，且基于用户信任即可建立好友关系和互相访问对方的信息。近年来，社交网络的这些特性开始被攻击者利用，社交僵尸网络应运而生。攻击者通过社交僵尸账号添加用户好友，收集用户信息，给用户的账户安全造成危害。社交网络迅猛发展的势头助长了社交僵尸网络的扩散，使其成为互联网的一种新的威胁。社交僵尸网络具有如下的特征：隐蔽性强，社交网络用户数量大，用户数据较为分散，在海量的正常流量中，僵尸网络产生的流量可以轻松地隐藏自身；传播难度低，人们在社交网络平台上倾向于根据较为主观的个人偏好对用户进行分组，这使得社交僵尸网络能够更加方便地扩大传播范围和窃取隐私数据，同时可以利用其在网络中全新的定位传播错误信息，试图引导公众舆论；危害性大，社交网络平台自身的开放性使得社交僵尸网络可以在平台上发布和部署具有欺骗性的内容和链接，诱使用户对其进行操作，从而向用户植入恶意代码，最终实现对用户主机的控制，达到其恶意目的；持久性，因为社交网络平台的生命周期很长，其中隐藏的社交僵尸网络又很难被检测到，所以社交僵尸网络可以在社交平台上长期地存在且不被发现。

在社交僵尸网络的发展过程中，越来越多的网络安全技术开始被运用。早期的社交僵尸网络普遍使用明文进行传播，较易检测；随后出现了多种多样复杂的、更为隐蔽的社交僵尸网络，如基于图像隐写技术的Stegobot 社交僵尸网络［2］、基于网页标签属性域隐蔽的DR-SNbot［3］、基于推文长度的隐写技术的Twitter 社交僵尸网络［4］等。由于运用了最新的技术实现了很高的隐蔽性，这些僵尸网络的检测难度往往都很大，危害性相比传统僵尸网络也更大。

综上所述，社交僵尸网络对社交平台有极大的破坏性，同时也危害着用户的个人信息安全与系统安全。因此，研究社交僵尸网络的通信方式、攻击原理和技术，以及相应的防护、接管与反制方案十分重要，具有很高的经济社会价值。

本文从社交僵尸网络安全威胁的根源着手，研究社交僵尸网络的通信原理和运转方式及表现出的群体特征与隐蔽手段，为社交网络的安全防护，尤其是针对运用新技术的社交僵尸网络的检测与防护，提供相关的理论和技术支持。介绍僵尸网络的概念、发展现状与趋势以及社交僵尸网络的概念与发展现状，并分析现有社交僵尸网络的工作机制，对新型的社交僵尸网络——隐蔽型僵尸网络的两类检测方法以及基于机器学习的社交僵尸网络检测方法进行分析，给出社交僵尸网络反制与接管的发展思路。在此基础上，对比分析不同社交僵尸网络检测方法的优缺点，并对未来社交僵尸网络领域的研究方向进行展望。

1 僵尸网络

1.1 僵尸网络概念

僵尸网络（Botnet）是由命令控制信道技术搭建的具有恶意目的的网络［5］。攻击者往往利用僵尸网络来传播僵尸程序，达到控制大量受害者主机的目的。其中，“攻击者”是指能够控制僵尸主机的控制器（Botmaster）。攻击者可以通过一对多的方式高效地控制大量的受害主机发起DDoS 攻击、发送垃圾邮件、传播恶意代码、进行点击欺诈以及窃取受控主机敏感信息等。

命令与控制（Command and Control，C&C）信道是僵尸网络的主要特征之一。唯有依赖于C&C 信道，攻击者才能达到实时驱动批量僵尸主机执行网络攻击的目的，而控制者能够实现对僵尸主机状态信息及其他数据的回收与攻击策略的实时调整［6］。根据C&C 信道的特征不同，传统的僵尸网络被分为基于IRC 协议的僵尸网络、基于HTTP 协议的僵尸网络、基于P2P 结构的僵尸网络、基于Fast-flux［7］技术的僵尸网络、基于Domain Flux［8］技术的僵尸网络、基于URL Flux［9］技术的僵尸网络等。

随着时间的推移，近年来出现了与热门技术紧密相关的僵尸网络，例如在物联网（Internet of Things，IoT）中控制大量设备的IoT 僵尸网络、基于区块链技术通信的僵尸网络等。

2016 年，基于IoT 的Mirai 僵尸网络控制了接近50 万台物联网设备，实现了高达1.2 Tb/s的网络流量的DDoS 攻击［10］。此后，物联网中的DDoS 攻击开始成为研究人员的关注对象［11］。近十年来，研究人员或是在Mirai僵尸网络的基础上进行改进，或是设计出更加难以实施防护的IoT 僵尸网络。例如文献［12］介绍了Linux Wifatch 僵尸网络。这种IoT 僵尸网络主要针对感染采用默认用户名密码登录或使用弱密码的IoT 设备设计，在感染后Wifatch 使用P2P 网络，删除主机上的其他恶意软件，关闭该主机的Telnet 连接，并在设备日志中记录Telnet 关闭的信息。另一种新型的僵尸网络是Linux/IRCTelent，它针对支持IPv6 的物联网设备设计，结合了Telnet 暴力破解、代码注入、用户名/密码表等多种技术，实现对目标主机的感染和基于IPv4、IPv6协议的泛洪攻击。

区块链技术的发展导致了数字加密货币的流行，比特币则是数字加密货币的代表。区块链具有去中心化、不可篡改性、匿名性等特性，这些特性不仅使其可以作为网络安全防护方案的核心技术，也引起了黑客的注意。黑客开始将比特币引入僵尸网络的C&C 通信，借助其特性使得现有的僵尸网络检测方法失效，大幅提升了僵尸网络的隐蔽性。文献［13］介绍一种基于比特币的ZombieCoin 僵尸网络，这种僵尸网络采用比特币的数字签名来隐藏C&C 控制信息，从而增加了其检测难度。文献［14］介绍的比特币僵尸网络Testnet，并提出一种实现僵尸网络控制器与僵尸主机之间双向加密通信的僵尸网络。

1.2 僵尸网络发展趋势

随着新技术的不断出现，僵尸网络的传播能力与隐蔽性在逐渐增强，同时网络攻击者开始在不同的平台上部署僵尸网络（如前文所述的出现在物联网上的IoT 僵尸网络以及出现在社交平台上的社交僵尸网络）。由此可见，僵尸网络带来的网络安全威胁在不断增加。对于这类安全威胁的防范，潜在的研究不仅在于对僵尸网络的检测，还包括如何对僵尸网络进行反制，降低其传播速度与危害性。

2 社交僵尸网络

基于社交网络的僵尸网络与传统的僵尸网络有着较大的区别：在传统的僵尸网络中，被控制的节点不是控制者拥有的主机，而是存在于网络上的其他用户的主机。而在社交僵尸网络中，被控制的节点是攻击者自行创建的社交账号，攻击者利用僵尸程序控制这些账号执行一些极其类似真实用户的行为来模拟真实账号，该过程如图1 所示。

图1 社交僵尸网络概念示意图Fig.1 Schematic diagram of social botnet concepts

上述差别导致了社交僵尸网络一般不存在感染其他主机的恶意代码，而是通过伪造的URL 来诱导人们点击下载恶意代码；社交僵尸网络也不存在特殊的通信协议，因为社交僵尸网络中的通信几乎都是僵尸程序与社交网络服务器之间的基于HTTP 的通信。上述不同导致了两者的检测方法的差异性。

2.1 社交僵尸网络定义

定义1（社交僵尸）社交僵尸是一种特殊的聊天机器人，用于社交网络自动生成消息或者支持某些想法、活动和公共关系，收集追随者信息的虚假账户［15］。

定义2（社交僵尸网络）社交僵尸网络是指在社交网络中，攻击者出于恶意目的，通过一对多控制结构操纵大量的可模拟真实用户的僵尸账号形成的受控网络［16］。

僵尸账号是攻击者通过人工方法或者运用僵尸程序创建的被社交网络控制的账号，僵尸账号之间不会进行通信。僵尸账号并不只是收集用户信息，还有许多僵尸账号利用与真实用户之间的信任关系传播垃圾信息，严重影响社交网络安全。

2.2 社交僵尸网络恶意行为

社交僵尸网络的恶意行为与普通僵尸网络恶意行为类似，文献［17］将社交僵尸网络的恶意行为分为三大类：消息散布（Information Dispersion），信息收集（Information Gathering）和信息处理（Information Processing），如图2 所示。

图2 社交僵尸网络恶意行为的分类Fig.2 Classification of social Botnet malicious behavior

社交僵尸网络恶意行为一般有以下5 种形式：

1）污染网络环境。一些僵尸账号隐藏在真实账号之下，通过投放广告赚取点击量，如传播色情、反动信息。一些社交僵尸账号与合法用户之间确立了信任关系，以更加难以发现的方式发布垃圾信息。

2）引导舆论。当一些重大事件发生时，社交僵尸网络通过控制大量社交僵尸账号集体发声制造巨大的网络声浪，引导和控制社会舆论，甚至影响事态的发展，这即所谓的社交网络水军。

3）窃取信息。社交僵尸账号通过与真实的用户建立相互的信任关系，通过与真实用户进行互动，收集真实用户的隐私信息。获取这些信息后，攻击者就可以将它们转卖给营销公司，造成用户信息泄露，导致用户收到大量垃圾短信、垃圾邮件、骚扰电话等。

4）恶意植入。通过与真实用户建立的信任关系发布伪造的URL 链接。攻击者可以使用伪造的URL 链接进行网络钓鱼、传播病毒、诱导用户下载恶意代码等行为。一些缺乏网络安全意识的用户常会无条件地信任并点击“朋友”发布的链接，从而遭受恶意攻击，甚至被盗取账号、植入主机病毒等。

5）虚假信息传播。由于社交网络的巨大体量和社交僵尸网络强大的消息扩散能力，攻击者可以利用社交网络上的僵尸账号进行谣言的传播。

在国际上已经有社交僵尸网络的恶意行为这一应用的先例：一份针对2010 年美国中期大选的文献指出了社交僵尸网络的滥用影响了大选的最终结果［18］；2014 年，印度的大选中也被发现有运用社交僵尸账号散布对敌对政党不利的新闻的现象［19］。另外，文献［20］指出，一些国家的政府利用社交僵尸网络来诱导大众发表有利于政府的观点。从国家的层面来讲，现代的战争形成了认知域这一全新的作战维度，与传统战争中的物理域和信息域共同构成了现代战争的三大战场。目前，社交僵尸网络的出现吸引了一些组织的注意力，他们开始尝试将社交僵尸网络运用在向敌人散布虚假的消息或者错误的消息上，这会给敌人的心理造成一些影响，从而左右战争的局势。因此，虽然还没有证据表明社交僵尸网络已经被运用在现代战争中，但是要注意到社交僵尸网络的力量及其对战争胜负的影响力。

综上可见，社交僵尸网络带来的安全威胁是不可小觑的。因此，有必要了解并研究社交僵尸网络的攻击原理与防御方法。

3 社交僵尸网络发展阶段

从第一个知名的社交僵尸网络Koobface［21］出现至今，其攻击形态和攻击技术都发生了巨大的变化，从最初借助社交平台对C&C 信道进行弱加密，到运用隐写技术将控制命令隐藏在图片或文本中进行传播的社交僵尸网络，社交僵尸网络的隐蔽性越来越强，种类也变得更加繁杂。

3.1 传统社交僵尸网络阶段

随着社交网络平台的发展，僵尸网络被引入社交网络中。随着2010 年第一个成功传播的社交僵尸网络Koobface 的出现，一批以传统僵尸网络技术为基础的社交僵尸网络大量产生。下面按照社交僵尸网络所针对的社交平台的不同，分别介绍社交僵尸网络的发展演化历程。

3.1.1 Facebook 上的社交僵尸网络

文献［21］介绍了利用社交网络平台进行传播且获得成功的僵尸网络Koobface，其攻击目标是拥有诸如Facebook、MySpace 等社交网站账号的个人用户，目标系统为Windows 系列操作系统。攻击者通过Koobface 可以实现广告推送、恶意软件付费安装、用户信息窃取，进而牟取暴利。Koobface 通过社会工程学的方式进行传播。具体来讲，Koobface 利用社交网络平台发布恶意视频链接，诱骗用户点击并安装恶意插件从而感染成为僵尸主机。攻击者会事先注册若干blogspot1/bit.ly 账号，同时准备好一批被劫持和篡改的网站页面。准备完毕后，Koobface 会利用已感染用户的社交账号进行恶意链接的发布和推送（第1 个阶段），该链接指向攻击者准备的恶意blogspot/bit.ly 链接（第2 个阶段），当用户点击访问社交账号上发布的链接时首先会跳转到blogspot/bit.ly 中的恶意链接，接着blogspot/bit.ly 的链接将会把请求重定向到被劫持和篡改的网页（第3 个阶段），通过页面的JavaScript 脚本再一次将用户的请求重定向到最终目的地——恶意视频页面（第4 个阶段）。还有一些研究人员研究了Koobface 僵尸网络的传播及命令控制机制，并分析了Koobface 的URL 混淆技术，他们认为Koobface 仅对C&C 信道进行了弱加密。

文献［22］介绍了基于Facebook 的社交僵尸网络Yazanbot。该社交僵尸程序可以产生分别针对社交网络信息传递过程和社交关系管理结构的两种操作。前者可以对Facebook 上的内容进行读、写等操作；后者则可以产生新的社交关系图。僵尸网络控制者账户可以通过发布不同的命令，实现与社交僵尸账户之间的建立与断开连接操作。同时，僵尸网络控制者账户还能够操纵社交僵尸账户的行为，执行包括命令僵尸账户连接正常的社交账户和仓库内的其他账户、寻找邻居账户、返回收集到的用户信息在内的操作。Facebook 提供的API 接口和HTTP 请求的模板库是Yazanbot 工作的主要基础。

其他以Facebook 为平台的社交僵尸网络还有文献［23］介绍的Fbbot。Fbbot在随机时间登录Facebook 网站首页，获取最新状态，解析后得到相关的命令并进行对应的操作，最终提供反馈信息。Facebook 上的社交僵尸网络多利用Facebook 提供的Facebook Graph API［24］来进行大规模的社交关系操作，利用社交僵尸程序收集用户的个人信息。

3.1.2 Twitter 上的社交僵尸网络

与Koobface 同期出现的社交僵尸网络还有文献［25］介绍的基于Twitter的僵尸网络Nazbot。Nazbot 使用Twitter 上的账户名为upd4t3 的僵尸主机接收命令。Nazbot 首先向upd4t3 的RSS 发出HTTP GET 请求，Twitter 随后返回一个以Base64 编码的文本RSS 提交给Nazbot。然后Nazbot 对该文本进行解码，并从bit.ly 网址获取真实的URL，该bit.ly URL 重定向到一个独立服务器上的恶意文件。随后Nazbot下载这个恶意文件并将其作为有效载荷解压并执行。最后有效载荷窃取用户的管理信息，并将收集到的信息返回给botmaster 控制的服务器。

文献［26］介绍了以明文发布命令的基于Twitter的移动僵尸网络。ZeroFOX 威胁研究小组对一个名为Siren 的大型僵尸网络进行了调查研究［27］，该网络利用算法生成的Twitter 账户所形成的庞大信息网络来发布有效的URL，该URL 可以重定向到很多包含色情内容的网站上。随后被控制的僵尸账户通过直接转发受害者的推文，来诱使受害者掉入陷阱。

2013 年出现了另一种Twitter 上的社交僵尸网络Twitterbot［28］。研究人员使用Twitter 作为僵尸网络的C＆C 信道，直接在Twitter 账户上发布僵尸网络命令。僵尸程序通过Twitter 网站上的Twitter 消息搜索引擎来获取命令，并使用OAuth 认证机制和twitter4j API 接口开发的应用程序进行通信。Twitterbot 使用关键词减少了Twitter 消息的可疑度，提高了僵尸网络节点的存活率。

3.1.3 Weibo 上的社交僵尸网络

相比于国外的社交僵尸网络，我国出现社交僵尸网络的时间相对较晚。2017 年，文献［23］介绍了基于微博平台的社交僵尸网络Wbbot，它通过模拟IE 浏览器的行为来访问微博网站，最终获取用户在微博上的个人信息。Wbbot 首先尝试从微博主页获取botmaster的状态。随后僵尸程序检查控制命令是否被包含在微博的状态信息中，以及相关命令是否已经被执行。最后僵尸程序会对新的命令进行处理和分析，并执行相应的操作。该社交僵尸网络共存在10 个不同的控制命令：6 个主机上的行动命令用来获取本地网络信息、Windows系统版本、执行DoS 命令、迫使IE 浏览器打开一个URL、强迫受害者主机重新绑定域名和IP 等；另外4 个在线社交网络活动的命令可以控制感染微博账户发布文本消息、更新状态信息、对微博消息进行评论、关注指定账户。

其他Weibo 上的社交僵尸网络有文献［3］介绍的DR-SNbot，这种僵尸网络基于新浪博客搭建C&C信道，同时将控制命令隐藏在博文中，并将其发送到多个博客上。文献［29］介绍的基于P2P 的社交僵尸网络，通过匿名网络注册账户将加密后的命令释放到账户中。超级节点根据P2P 通信机制，使用相同的微博昵称生成算法，并主动通过HTTP 请求从微博账户中获取加密命令，增加了防御者跟踪整个僵尸网络的难度，弥补了P2P 僵尸网络模型中缺少命令服务器的问题。表1总结了现有的社交僵尸网络的主要特点。由于微博平台的API接口控制较为严格，相比于Twitter和Facebook开放程度较低，因此很少有基于微博的社交僵尸网络研究，而且现有的基于微博的社交僵尸网络的存活时间也相对较短。

表1 不同平台上的社交僵尸网络Table 1 Social Botnets on different platforms

3.2 新型社交僵尸网络阶段

僵尸网络的C&C 信道负责传输僵尸网络的内部控制消息，为防止第三方冒充Botmaster 发布命令或窃听C&C 通信内容，攻击者通常会在通信过程中引入相关的加密技术。然而，由于发布在社交网络上的社交僵尸网络命令一般是对用户公开的明文，因此社交僵尸网络的C&C 信道还必须具备较高的隐蔽性，以防止这些恶意消息被发现，最终导致僵尸网络被检测到并被破坏。为了逃避系统检测，社交僵尸网络开始探索基于信息隐藏技术的隐蔽通道的使用。隐蔽型社交僵尸网络面临如下几个主要问题：如何隐蔽地利用人类的社交习惯，通信的信息如何隐藏，如何更好地逃避检测。因此，隐写技术逐渐被引入到社交僵尸网络的设计与开发过程中。

隐写技术是一门关于信息隐藏的技术和科学，即除预计的信息接收者外，没有人会知道信息的传输（不仅仅是消息的内容）。其中，最常用的隐写技术是基于图像的隐写技术。最具有代表性的隐写技术是JPEG 隐写技术Jsteg［30］，其主要思想是在离散余弦变换系数最小的位中隐藏数据，从而保证无法用肉眼看出隐写后与隐写前图像之间的区别。其他的图像隐写技术还有YASS［31］、基于模型的MB［32］、Outguess［33］、F5［34］等。其中YASS 随机选取8×8 的字块，将隐写信息嵌入到该字块的DCT 系数中。

3.2.1 基于图像隐写技术的社交僵尸网络

文献［2］介绍了基于图像隐写技术的Stegobot社交僵尸网络。Stegobot 使用社交网络用户共享的图像作为构建C&C 通信的通道媒体，采用YASS 图像隐写技术在社交网络中建立一个通信的通道，并将其作为社交僵尸网络的C&C 信道。Stegobot 的设计目的是通过社交网络，比如电子邮件通信网络或允许朋友交换电子邮件的在线社交网络来感染用户。Stegobot 感染大量主机，并从主机向Botmaster传输盗取的信息。当用户从受感染的主机上传图像到Facebook 时，僵尸会截取图像，并在发送到Facebook 前使用YASS 图像隐写技术将僵尸负载插入到图像中。当Botmaster 准备发布命令时，它通过生成一个僵尸负载消息并将其上传至它的Facebook账户来完成，然而，图片占用很大的空间将显著增加僵尸网络信道的流量，容易被检测到。Stegobot 图像隐写系统的结构如图3 所示。

图3 Stegobot 图像隐写系统Fig.3 Stegobot image steganography system

3.2.2 基于文本隐写技术的社交僵尸网络

文献［3］介绍的DR-SNbot 包括Botmaster、C&CServer 与Bot 3 个部分。其中僵尸网络的控制端是Botmaster部分，这部分用来发送攻击命令。C&C-Server是命令控制服务器，是注册昵称对应的社交网络虚拟主机。每个C&C-Server 对应进行一个企业不同的注册昵称，并将命令隐藏在僵尸网络日志中发布。当C&C服务器出现故障时，灾难恢复机器人会发出预警，通知攻击者构建新的C&C 服务器，并自动修复C&C 通信信道，以确保其强大的抗毁性。Bot 是僵尸程序，通常运行在移动终端上，用于在C&C-Server 上下载命令并解析执行这些命令。DR-SNbot 的C&C 信道命令的发布包括预处理、信息隐藏、POST、GET、信息提取、后处理6 个步骤。预处理过程是指Botmaster对命令进行加密和签名，最终形成密文。信息隐藏是指Botmaster 在一个属性域中隐藏一段密文，随后在正常日志中插入这个标签。这个被操作的属性域要拥有特殊的网页标签。僵尸主机通过HTTP 的POST 方式将日志上传到C&C-Server，Bot 通过GET 请求下载该日志，在Bot 日志中寻找与众不同的网页标签（如），确定该标签的属性域，并在提取信息隐藏阶段加密得到的密文。最后Bot 验证Botmaster 产生的数字签名，如果该签名验证最终是通过的，那么Bot 对该消息进行解密，得到对应的明文（即命令），如果签名验证不通过，Bot 会丢弃这条消息。C&C 信道流程如图4 所示。