基于大数据技术的攻击溯源研究
摘 要:
大数据、云计算等信息技术的发展,加速了信息化发展速度,同样刺激了网络攻击的普遍化、持久化、武器化,也给攻击溯源带来了新挑战。传统的溯源技术大都针对某一类 或某几类的数据进行分析,还原攻击过程,且溯源过程需要大量的人工介入。从攻击溯源的 基本思路入手,结合大数据技术特点,以及大数据安全产品的开发经验,提出一种基于大数 据技术的多层溯源框架,对多元数据进行分析,绘制尽可能完整的攻击路径,还原攻击全过程。不仅提高攻击溯源的自动化程度,并缩短攻击溯源的周期。
内容目录:
1 攻击溯源
1.1 攻击溯源基本思路
1.2 攻击溯源技术的应用现状
2 基于大数据技术的攻击溯源
2.1 基于大数据攻击溯源总体框架
2.1.1 数据集层
2.1.2 数据清洗分析层
2.1.3 全景关联溯源层
3 应用实例展示
信息技术的蓬勃发展带来了机遇,同样也 带来了挑战,大量应用系统丰富了我们的生活,由于通过网络攻击可获取更多经济利益,这一 结果进一步刺激了网络攻击的泛滥。在网络空 间这个战场上,攻防双方的博弈实质上是信息 获取能力的对抗,只有获取更多、更全的信息才能制定有效的攻防策略,在攻防博弈中取得 优势。作为防守方,需要明确谁攻击了我,用了何种手段,突破点,攻击路径,这便是攻击 溯源。通过攻击溯源技术确定攻击源,以制定 具有针对性的防护和反制策略,实现主动防御,抑制网络攻击产生的影响。由此可见,攻击溯 源在网络攻防战中的重要作用。
攻击溯源技术发展至今,此领域已涌现出 大量的溯源方案,如通过挖掘进程、文件与文 件名之间的因果依赖关系的 BackTracker 溯源 方案 ,基于系统日志和应用日志关联溯源的 OmegaLog 框架,基于威胁情报的攻击溯源方 案等,但这些溯源技术只是解决了一定场景中的攻击溯源,无法覆盖网络攻击的整个过程 或需要大量的人工干预。
本文提出了一种基于大数据技术的攻击溯源方案,该方案用于解决网络攻击的全流程溯源场景。首先,通过对网络流量的采集、业务日志及系统日志收集,以及对主机脆弱性的检 测构建网络攻击溯源数据集;其次,对数据集进行单例分析、上下文分析、主机侧与网络侧 数据关联分析以及结合主机脆弱性对攻击数据 进行分析和降噪;最后,通过 MITRE 公司提供 的攻击战术、技术和常识的 ATT&CK[6] 模型对攻 击的各个阶段映射构建完整的网络攻击溯源全景图。
01 攻击溯源
本节将详细介绍攻击溯源的原理、方法以 及现状等情况。
1.1 攻击溯源基本思路
网络攻击溯源是指利用各种手段追踪网络 攻击发起者。在攻防的视角里,进攻方会占据 比较多的主动性,而防守方则略显被动,作为 防守方需要尽可能多地收集网络攻击产生的痕 迹,并将这些痕迹汇总分析,发现攻击者意图和攻击路径,进一步反向跟踪直至找到攻击者。
网络攻击溯源一般分为 3 个部分,首先,要通过安全设备告警、日志和流量分析、服务 资源异常、蜜罐系统等对网络攻击进行捕获, 发现攻击;其次,利用已有的 IP 定位、恶意样 本分析、ID 追踪等技术溯源反制收集攻击者信息;最后,通过对攻击路径的绘制和攻击者身份信息的归类形成攻击者画像,完成整个网络 攻击的溯源。
1.2 攻击溯源技术的应用现状
攻击溯源技术发展至今,已经有多个机构 和组织提出了针对不同场景的解决方案,以下针对部分方案进行介绍。
(1)BackTracker 溯 源 方 案 :通过分析 进程、文件和系统日志之间的关系构建溯源模 型,分析进程创建的依赖关系,在系统日志中 寻找文件和进程之间、文件名和进程之间的依 赖关系并分析溯源恶意文件,但由于仅通过文 件关联,适用的场景有限。基于建模的因果推 断(Modeling-based Causality Inference,MCI) 在 BackTracker 溯源方案基础上进行改进,加入 了基于因果关系的语义分析,增强了系统日志 的依赖关系分析能力。以上模型均属于典型的 主机侧溯源方案,由于仅关注进程、文件和系 统日志,无法溯源到恶意文件投放路径,所以仅能完成主机侧溯源。
(2)OmegaLog 框架 :提出了一种通过 结合系统日志和应用日志的溯源框架,认为将 系统上所有与取证相关的事件统一到一个整体日志中可以显著提高攻击调查能力。OmegaLog 框架使用内核模块拦截应用程序的系统调用, 将 进 程 号 / 线 程 号(Process ID/Thread ID,PID/ TID)和时间戳信息梳理至业务日志,再通过控 制流分析对应用日志和系统日志进行解析,生 产事件流带入溯源框架完成溯源。该方案结合应用日志,极大地增强了主机侧的溯源能力,但由于拦截系统调用部署的难度较大,也仅能完成主机侧溯源。
(3)基于威胁情报的攻击溯源方案 :通 过对 IP 反查、Whois 域名解析、连接记录中的 统 一 资源定位器(Uniform Resource Locator,URL)等信息,关联威胁情报中记录的 IP、域名、URL、文件哈希值等信息反查攻击者信息, 实现网络侧攻击主机的定位。该方案是利用同类攻击不会只在互联网上发生一次的思想形成 共享情报,再通过对攻击者的网络地址进行反 向追踪溯源。情报来源于共享,共享的数据本身存在滞后性,单从情报角度进行攻击溯源可 完成对已知攻击再次发生的攻击溯源,但很难应对攻击手段变化情况的攻击溯源。
攻击溯源仍是一个较新的领域,发展仍处 于探索阶段,场景覆盖程度和自动化程序均是 目前研究的热点。
02 基于大数据技术的攻击溯源
大数据技术是指从各种各样类型的数据中,快速获得有价值信息的能力。
大数据技术特点可以概括为 5 个 V,即数 据量大(Volume)、速度快(Velocity)、类型 多(Variety)、价值(Value)、真实性(Veracity)[8]。信息时代的发展会产生大量的数据,以网络带宽为例,互联网早期每秒仅处理千字节级的数据,现在一个中型城市的出口每秒就要太字节级的数据,每天就要处理近百拍字节的数据,在此量级多样的网络数据基础上完成数据高速储,分析提取,发现有价值的数据,就是数据技术。
近年来,大数据技术在安全领域已经取得了许多新成果,如薄明霞等人 提出了基于大数据技术构建威胁情报共享平台,为企业构建 基于威胁情报的主动防御体系。运用大数据技 术构建具有安全分析、持续安全监测以及安全 运营能力的安全管理平台等成功案例。
大数据技术的核心能力是在海量的数据中 提炼出高价值的数据,网络攻击中典型的高级 可持续威胁(Advanced Persistent Threat,APT) 攻击往往会长时间潜伏,而少量攻击数据则是 伴随巨量的业务数据共同产生的,一个每秒几 千兆字节数据的业务流量场景,真实的攻击行 为数据可能只有不到几千字节的数据。而在这 种情况下,利用大数据技术快速完成攻击溯源 恰恰是值得深入研究的。
2.1 基于大数据攻击溯源总体框架
攻击溯源本质上是在大量的正常数据中寻 找出攻击者在攻击过程中留下的痕迹,并通过 这部分痕迹回溯攻击者。攻击溯源往往是在攻击者对攻击目标产生危害并被察觉后产生的动作,但由于时间跨度较大,或者攻击者对攻击 痕迹的清理等因素,给溯源工作带来极大的阻 碍。大数据技术的成熟为攻击溯源带来了新的 可能,大数据技术可以收集大量的异构数据, 并对这些数据进行清洗,提炼出有价值的攻击 痕迹,再通过数据分析和模型关联将这些信息 串联起来形成攻击路径,通过攻击路径的反溯 找到攻击入口、还原攻击过程。
结合攻击溯源技术和大数据技术,本文 提出了一个基于大数据技术的多层溯源框架 (Hierarchical Traceability Architecture, HTA), 如图 1 所示, HTA 分为 3 层:基础层为数据集层, 中间层为数据清洗分析层,顶层为全景关联溯 源层。基础层采集攻击溯源所需的、不同来源的数据集, 通过数据清洗分析层实现数据分类、 归并、标签化处理,根据用途逐层分类、提炼分析,为全景关联溯源层的多维度关联分析提供依据。
图 1 HTA
2.1.1 数据集层
数据是攻击溯源的基础,溯源往往是在攻击发生之后的动作,很多的网络攻击是在发生之后很久才被发现。传统的攻击溯源思路需要先在受害主机上发现恶意文件,再对少量数据进行分析发现明显的异常,但应对 APT 攻击溯源时明显不足。整个 APT 攻击过程可能覆盖系统漏洞发现。漏洞利用攻击、恶意代码植入、远程控制、数据泄露等过程,攻击手段繁杂,所以数据收集的思路就需要改变,只有收集足够多、足够丰富的数据才能完整地绘制一条攻击链。如利用系统漏洞攻击时,系统日志、应用日志、网络入侵检测设备均可监控到部分攻击线索。如果主机执行恶意程序, 系统进程信息、 文件名、系统日志等信息则会留下恶意程序执行后的痕迹。
数据的丰富程度决定了溯源能力的高低, HTA 的数据集层收集威胁监测设备的攻击日志、入侵防御系统、Web 应用防火墙等网络安全设备日志、原始网络报文和网络侧连接信息 构建网络侧数据集,收集业务访问记录、服务器日志、系统日志、系统进程监控数据等作为主机侧数据集,同时收集威胁情报作为辅助佐 证数据集,利用这些不同类别的数据集构建一 个大的异构数据集,这样尽可能地涵盖攻击溯 源所需的数据。
2.1.2 数据清洗分析层
拥有大量的原始数据就相当于拥有了检测能力,但数据并不是越多越好,需要对数据进行分类、归并和标签化处理,提炼有价值的数据。获取的数据主要涉及结构化、半结构化和非结构化,由于半结构化和非结构化数据不利于分析处理,所以需要对其进行信息抽取。这一层的核心目标是完成有价值的数据的初步提炼,为后续的数据分析提供结构化的数据。
HTA 采用数据分类归纳法完成数据的初层 次提炼,同类型数据清洗流程如图 2 所示,然后按照数据用途进行数据逐层分类。
图 2 同类型数据清洗流程
按照数据类型分为结构化数据、半结构化 数据和非结构化数据,再分别对结构化数据、 半结构化数据和非结构化数据进行分类。如攻 击日志、访问记录等属于结构化数据;进程运 行记录、服务后台错误记录等属于半结构化数据;原始报文、系统运行状态等属于非结构化 数据。
使用同类数据归纳法对冗余数据进行去重处理。使不同来源的同类数据在同一框架规范下进行异构数据清理、去重、归一、索引建设等步骤,形成高质量、有价值的归纳数据。以防火墙记录 的连接关系日志和服务端记录的业务访问记录为 例,两种数据都是访问记录,针对此类记录需要 提取公共信息和必要的附加信息,并针对冗余数 据进行去重,避免冗余信息干扰。
同类数据完成归纳清理后,根据用途逐层分类、提炼分析。例如,为确定攻击溯源的入口,攻击溯源首先需要做的就是将大量的访问记录和受害者主机上记录的各类日志统一发送至大数据平台的数据清洗分析层,对清洗后的数据 进行提炼分析发现单点事件; 发现单点事件后,一般可以先从网络安全检测设备入手,例如,通过全流量威胁检测探针、入侵防御系统、Web应用防火墙、主机检测软件等发送的攻击检测日志。针对这一类数据,一般按照攻击时间、 攻击手段、攻击频次、地理位置、攻击状态、攻击方向等方面进行再次分类,并按照数据类 型建立数据查询索引,为后续的溯源模型及关联分析建立溯源主线索。攻击事件溯源主索引确定后,可以沿着攻击路径进行深入的攻击溯 源分析。
2.1.3 全景关联溯源层
溯源模型的构建是自动化溯源的基础,所有技术均围绕着溯源模型进行分析处理,自动化溯源调度工作流如图 3 所示,在数据清洗分析层基础上进行单场景溯源、全场景关联。
图 3 自动化溯源调度工作流
HTA 采用场景建模法建立单场景溯源模型, 如典型的勒索病毒“永恒之蓝”在传播过程中会 利用 SMB 服务器的漏洞, 利用过程的行为至少分 为两个步骤,在建立场景化模型时,一是针对这 一类勒索病毒的攻击方式、攻击特点等方面建立 场景模型;二是按照在模型内部对行为发生的时 序进行限制,从而提升此类攻击溯源的准确性。
完成单场景溯源模型的准备后,再通过 ATT&CK 模型进行全场景关联溯源,ATT&CK 模型由 MITRE 公司提出,它是一个站在攻击者 视角来描述攻击中各阶段用到的技术模型,将攻击划分为战术和技术两部分,该模型涵盖了 网络侧数据的映射和主机侧数据的映射,按照攻击者的思路梳理出一个完整的攻击过程全景图。此模型可作为攻击溯源基础指导模型,对各阶段的数据进行映射,形成攻击事件的战术和技术分布图,再进一步对时间轴、受害资产属性、威胁情报、相关联的攻击路径上的数据 进行多维度关联,将映射过的数据与攻击场景 相结合进行系统的分析、攻击降噪和攻击取证,最终形成完整的攻击溯源报告。
03 应用实例展示
本文基于 HTA 构建的大数据溯源平台,以 一次挖矿木马的攻击溯源过程为例进行实际效 果展示说明。
大数据溯源平台通过接收在网络环境中部 署的全流量威胁检测探针采集数据,并借助大 数据技术的优势将采集到的数据持续永久化,为攻击溯源提供数据支撑。此案例主要收集了 攻击日志、访问记录、原始报文、资产属性等数据,并将数据入库建立数据集。按照 HTA 的数据分类归纳法将收集到的数据进行分类,再 对数据进行标签和属性富化处理,提升单条数 据的价值权重。该平台采用告警触发和轮询触 发两种方式自动溯源,设置攻击日志作为权重 最高的索引线索。
以此案例中监测到的攻击日志为例,IP 地 址 34.1.1.10 对 IP 地址 192.168.100.1 的扫描探测 攻击日志在被监测到后根据分类规则被划分至 攻击日志,攻击日志作为溯源的主索引权重较 高,借助大数据的实时流式处理技术进行属性 富化处理, 将源 IP 地址的地理位置、国家编码 以及目的 IP 地址的资产名称、资产类型等信息 富化至攻击日志,并将此日志归类为针对资产 类攻击线索的结构化数据——网络攻击日志。大 数据实时流式处理技术可快速高效地将数据富 化,尽可能将信息归并至一条数据内,有效降 低单日志分析模型的关联分析工作,提高溯源效率。处理后的数据如图 4 所示。
图 4 分类后的攻击日志数据
完成数据集的构建和数据清洗工作之后进入 HTA 的全景关联溯源层,首先针对持久化之后的数据,需要进一步分析完成单点事件的场景化分 析。通过场景化事件模型分析过滤掉干扰数据,将判定成功的数据生成告警信息输出,并作为全 景溯源的数据输入。以此案例的 nmap 扫描探测 攻击告警信息为例,由于监测到了多次 IP 地址34.1.1.10 对 IP 地址 192.168.100.1 的 nmap 扫描探 测攻击日志,在非结构化的原始报文中关联取证 发现, 扫描探测报文中携带了 nmap 的签名信息,符合网络侧攻击溯源模型中 nmap 扫描探测攻击 模型,由此可以判定此攻击较大概率真实发生。
大数据技术提供了实时分析和离线分析两种模式,结合攻击溯源技术可采用实时处理模型分析短时间内的热数据,再通过离线分析模 型处理多种数据之间的关联关系,足以应对主机侧溯源、网络侧溯源、网络侧主机侧关联溯源的各类复杂场景。告警信息如图 5 所示。
图 5 nmap 扫描探测攻击告警信息
完成单点事件模型分析后进入 HTA 的 ATT&CK 模型映射过程,针对告警数据采用告警信息的攻击类型和告警名称词法分析映射,将攻击日志映射至 ATT&CK 的战术和技术中,再将攻击日志关联的连接信息、原始报文等信息映射至对 应的战术和技术中。ATT&CK 的技术涵盖了主 机侧技术和网络侧技术,可覆盖攻击者从网络 侧入侵到主机侧执行控制的全路径,作为全场 景溯源的数据组织框架,使用战术和技术抽象 出攻击关系,可有效解决单分析主机侧数据和 单分析网络侧数据的溯源不完整问题。以 nmap扫描探测攻击告警为例, 攻击类型为扫描探测,告警名称为“nmap 安全工具扫描(nmap)”, 攻击类型包含关键词扫描探测映射至战术扫描 探测,告警名称包含工具扫描映射至技术进行主 动扫描。ATT&CK 模型映射阶段不考虑告警之间的关联关系,将全量告警信息映射至 ATT&CK 模型,对后续的攻击者与受害者之间的攻击关 系和攻击发生的时间进行关联分析,进一步分 析溯源形成完整攻击路径,再针对完整的溯源 结果重新绘制事件的 ATT&CK 映射关系图,图 6 为此案例最终的模型映射图。
图 6 ATT&CK 模型告警映射图
最后根据攻击者和受害者之间的逻辑关系、 ATT&CK 模型各阶段的逻辑关系以及时间轴关联溯源,形成完整的攻击路径,还原攻击全过程。以 此 案 例 为 例,从 受 害 者 192.168.100.1 回连攻击者 71.0.1.147 的比特币挖矿告警信息 作为时间轴终点反向回溯攻击过程,比特币挖 矿属于 ATT&CK 模型的深度影响阶段,可以 判定 71.0.1.147 为数据回连服务器,此类攻击在通常情况下不会将数据回连服务器作为攻击者发起攻击,所以需要关联其他攻击受害者 192.168.100.1 的告警信息,反向溯源发现攻击者 34.1.1.10 对 受 害 者 192.168.100.1 发 起 多 种类型的攻击且覆盖了 ATT&CK 的多个阶段, 同 时 关 联 受 害 者 192.168.100.1 发 起 的 告 警 信 息,发 现 192.168.100.1 向 192.168.100.123 发 起 了 Web 漏 洞 攻 击,属 于 ATT&CK 模 型 内 网 的横向扩散阶段,还原整个攻击过程为:攻击 者 71.0.1.147 利 用 扫 描 探 测、Webshell 上 传、 Webshell 注入、命令注入、信息泄露、恶意软 件下载等手段实现了对受害者 192.168.100.1 的 远程控制,使受害者 192.168.100.1 沦为挖矿主 机,且正在试图向 192.168.100.123 横向扩散。完成溯源后的基于攻击关系的溯源关系如图 7所示。
图 7 溯源关系
相较于仅集成系统日志与应用程序日志的 OmegaLog 框架 ,一方面, HTA 涉及的数据范 围更广,包括集成攻击日志、入侵防御系统、网 络安全设备日志、网络侧日志、主机侧日志等,同时收集威胁情报作为辅助佐证;另一方面,由 于整合多源数据, HTA 的溯源分析不再局限于主溯源关系同时结合漏洞、情报库等实现溯源佐证,使溯源 路径更完整。OmegaLog 框架 侧重于分析主机 侧的系统日志和应用日志,关联分析发现安全事 件。在本案例实施过程中, OmegaLog 框架仅能看 到恶意软件在主机侧的恶意行为,无法监测到入 侵动作前和入侵后的扩散动作。HTA 解决了攻击 溯源未关联网络侧数据问题,能够通过分析网络侧相关数据发现入侵前行为和横向扩散行为,使机侧的溯源, 而是涵盖主机侧、网络侧、终端侧,绘制的溯源路径更加完整。图 8 为完成溯源后的基于时间轴还原的攻 击过程截图。
图 8 完整攻击过程
04 结 语
网络攻击发展至今,使我们面对的是有一定反检测能力的攻击者,特别是高级 APT 攻击通常较为隐蔽,不易触发单点的安全策略和检测,需要进行更多维度和大视角的数据分析,才能发现攻击并进一步溯源。本文提出的基于大数据技术的多层溯源框架(HTA)结合多元数据实现自动化溯源,还原攻击过程,为构建大数据溯源平台提供方法。随着数据收集越来越完善,可在持续提炼模型和关联手段方面持续研究,如关联地址备案信息、DNS 域名备案信息、邮件备案信息等,通过大数据技术实现更深层次的攻击溯源,实现溯源至攻击者 ID 信息的攻击溯源。
引用本文: 王涛 , 张淋 , 邹初建 . 基于大数据技术的攻击溯源研究 [J]. 信息安全与通信保密 ,2021(11):106-116.