华为防火墙AI技术轻松玩转恶意流量检测

2020-5-29

恶意流量肆意增长且越发善用伪装的今天，一方面恶意流量快速变化使得传统防火墙签名的生产速度难以匹配，另一方面对于使用了加密手段的恶意流量，由于无法提取有效的特征制作签名，传统防火墙往往束手无策。在AI技术的加持下，防火墙通过内置持续训练、自动升级的AI检测模型解决静态规则引擎的弊端，对于恶意流量的检测实现了升华。

恶意流量特征根据自身特性一般可分为内容特征、数据流统计特征和网络连接行为特征三类。

内容特征：包括报文协议段中特有的值以及载荷中的特殊字符，比如对于C&C恶意流量，C2服务器与受感染主机间为了持续通信，保持心跳报文，TCP报文中的push位多。

数据流统计特征：通过对采集的数据进行统计分析得到，恶意数据流通及特征可以从网络层、传输层和应用层提取，比如C&C恶意流量为了窃取受感染主机的数据信息会有上下行通信时间、报文比的数据流统计特征。

网络连接行为特征：恶意流量往往根据其攻击意图会具备特有的网络连接行为特征，比如一个受蠕虫感染的主机会随机地扫描主机的IP地址分布、开放的端口数目。

数据和特征决定了机器学习的上限，而模型和算法只是逼近这个上限而已，使用AI技术检测恶意流量同样离不开特征，通过海量数据提取特征，然后把特征向量化后交给机器去训练生成检测模型。这个模型不依赖于单一的检测特征，而是通过AI技术屏蔽恶意软件的局部变化，防火墙内置了这样的检测模型，不仅对已知的恶意流量具有检测能力，对于新型恶意流量同样具有泛化检测能力。

快速相面：AI算法+内容特征

传统防火墙受对于内容特征的检测能力更多地依赖于静态规则库的规模，对于像DGA域名这种变化快、数量多的恶意流量签名生产速度无法匹配。受感染的客户端通过DGA算法在短时间内生产大量备选域名，黑客只选择其中少量进行注册，便可以建立通信。虽然通信只需要一个或者几个域名就可以了，但是被感染的客户端会对所有的DGA域名进行查询。一旦被感染客户端与C2服务器连接成功，下载恶意文件或脚本进行挖坑、勒索，已被感染主机为跳板继续攻陷其他内部主机，窃取敏感数据等等危害都有可能发生。

AI技术的融入为防火墙对恶意流量进行内容特征检测开辟了新思路。大量的“烟雾弹”DGA域名都是无应答的，并且DGA域名由于生成器的特点导致其具备了随机性，使用机器学习算法的无监督学习进行聚类，可以在流量中识别出DGA恶意域名；根据DGA域名家族内部在长度、数字和字母出现比例、主域名子域名个数等方面的相似点，通过提取此类内容特征用孤立森林算法训练生成分类模型，实现将DGA恶意域名细分到家族，从而进一步对恶意域名的“身份”加以鉴定，有效提高防火墙对DGA恶意域名检测的精准度。

系统分析：AI算法+数据流统计特征

基于数据流统计的特征与采集的数据直接相关，采集数据的统计值会在一定范围内变化，从中提取的特征也需要进行适时调整，基于静态规则库检测的传统防火墙难以应对，因此对C&C这类恶意流量无法进行有效的阻断，导致攻击者通过C&C服务器发布命令给失陷主机进行关键资产识别、数据盗取或者沦为肉鸡发起DDoS攻击。

使用AI技术持续训练、实时升级AI检测模型，对于统计特征的变化感知灵敏，弥补了静态规则库的检测缺陷。对于非加密的C&C恶意流量，由于受害主机和C&C服务器之间的存在心跳流量，会周期性地通信以保持连接、协同攻击和下载更新等行为，其流包数、字节数、最小负载大小、平均负载大小等统计值会在一定范围内规律性变化，利用海量黑白样本使用AI算法对C&C恶意流量的流计特征进行提取用于检测，从而促使防火墙具备了系统分析的能力。

深度追捕：AI算法+网络连接行为特征

对于网络连接行为特征，传统防火墙可以通过自身所具备的会话机制或者入侵防御能力具备一定的识别能力，但是新型攻击频现，模拟正常上网行为混淆视听，传统防御方法捉襟见肘。比如对于传统的暴力破解，传统防火墙通过限定时间内统计源IP访问次数的方式来判定暴破行为，然后通过黑名单方式进行阻断。然而暴力破解“姿态万千”，对于新型暴力破解比如慢速暴力破解（模仿正常访问频率，进行“持久战”）、分布式暴力破解（通过多台主机不断变换源IP进行尝试登陆），传统检测手段往往难以奏效。

以AI技术应对拟人化的攻击，有效去伪存真，增强了防火墙的应对能力。对于慢速和分布式的暴力破解，防火墙使用孤立森林算法通过对经过自身的流量提取攻击源IP访问某协议端口的次数、登录目的IP的次数以及某源IP登录特定目的IP的次数等网络特征，寻找离群的异常点，使得防火墙具备深度追捕能力，有效识别并阻断慢速或者分布式暴破攻击。

综合判定：AI算法+特征融合

防火墙通过使用AI算法将各类特征融合，以恶意流量为本，按需选择，综合判定，不断扩展恶意流量检测的能力、提升检测精准度。为了更好的隐匿攻击行为，约有10%的恶意软件通过加密流量来通信，并且这个比例正在急速的增大。

主机在感染木马或者病毒后，发起HTTPS连接请求，连接到C&C服务器，并接收指令。根据指令执行收集关键信息资产或者内部继续渗透等动作，最后通过HTTPS将收集到的关键信息资产外发到C&C服务器。

对于恶意加密C&C流量的检测，仅使用AI算法对数据流统计特征生成单一的检测模型所实现的检测效果不佳，融合内容特征（华为防火墙独创了基于AI算法的ECA签名库，通过提取TLS的特征和证书相关信息等内容特征，生成签名库）和网络连接特征（比如目的IP关联DNS信息），综合判定，无需解密就可以实现对恶意加密C&C流量的有效检测。

除此之外，C&C恶意流量检测和暴力破解检测除使用了上述的数据流统计特征和网络连接行为特征外，也依据攻击特点综合使用了其他特征，多维度综合检测，有效提高恶意流量检出率、提升检测速度。

海量数据提升防火墙恶意流量检出率

无论应用到哪个领域，算法、算力、数据都是AI技术的三大关键因素，在防火墙产品领域亦然。海量数据输入和情报交互共享提供了更多的新增输入数据和黑白分析样本，数据和样本持续训练，不断升级检测模型，有效提升防火墙恶意流量的检出率。

华为防火墙的DGA域名库收集了50个DGA域名家族，每天出库120W+量级的样本，DGA恶意流量检出率高达；针对C&C流量（非加密）使用9W+黑样本，39个Windows样本家族，10+linux样本家族，既保证了样本覆盖面又保证了训练模型的精准度，检出率高达98%；针对恶意加密C&C流量每天使用250W+白样本，4w+黑样本，200+检测特征，实现不解密检测，检出率高达99%。

AI技术在防火墙的应用突破了传统防火墙的防御瓶颈，为提升边界安全防御能力持续提供新的思路， NGFW融入AI技术主动升级换代，进化为AI防火墙，不断加强对威胁的防御能力，将为边界安全不断注入新的活力。

THE END

手机连上WiFi后，到底要不要关移动数据网络？

<<上一篇

Flutter编程：利用贝塞尔曲线实现添加购物车效果

下一篇>>