AI恶意软件照妖镜视觉运算揭病毒真身

▲ 中企通信信息科技服务与数据科学部副总裁李超群：他山之石可以攻玉，团队走出传统网络安全思维，以数据算法，设计出突破性AI网络安全检测系统。

新科技速递

随着数字化转型，企业数字基建的攻击面愈来愈大，一些潜伏的攻击也很难发现，如何防御恶意软件，一直是网络安全的挑战。

近年来，勒索软件、木马、病毒、恶意挖矿程序等恶意软件不断大量涌现，不少更化整为零，绕过了防御系统，几乎是防不胜防。

虽然说侦察软件已推陈出新，但不少恶意软件仍通过各种手段逃逸侦察，绕过防御，传统网络安全防御手段已穷于应付。

去年，中企通信团队就发明了崭新检测手法，将恶意软件变为图形，再以神经网络，融合深度学习提取特征并建立检测模型，只要恶意软件具备共同图形特征，通过视觉运算的边缘推理引擎，就可快速判断是否为恶意软件并分门别类。

跳出框框打破传统

这种检测手法跳出传统框框，不从网络安全出发，甚至不须知道攻击的手法，只纯粹通过机器学习和视觉运算以辨识恶意软件，有点类似以人脸识别执行安保。

中企通信信息科技服务与数据科学部副总裁李超群说，团队开发出上述技术，获得了中国CCF大数据与计算智能大赛（CCF BDCI）「一等奖」，去年12月总决赛答辩日获「人工智能恶意软件家族分类」全场总冠军。目前正在申请专利，以便有关技术可实际应用。

这种侦察技术的优势，除了易于部署以外，亦更具效率。由于恶意软件开发不易，不少只是旧酒装新瓶，将原有软件加入逃逸掩饰，或者转换包装；除非全新设计，否则都会被上述技术抽测出来。

变种的恶意软件之所以难以侦查，主要是基于逃逸机制，通过不断变种来增加掩饰。中企通信推出的AI网络安全检测系统，通过图像特征即可准确识别恶意软件，任恶意软件如何变种亦无所遁形。

为防范恶意软件，市场有多种侦察技术；一般简单的是靠「标识符」（Signature）或特征代码来进行侦察，一旦符合预定特征，就可判断是恶意软件。但随着恶意软件遭不停修改，再加入混淆，标识符逐渐失去作用，原本隶属于同一家族的恶意软件，可化身为不同档案，如妖怪变身，再加上层层伪装，很难通过外表去分辨是否为同一恶意软件。

▲ 中企通信信息科技服务与数据科学部团队获得了中国CCF大数据与计算智能大赛（CCF BDCI）总决赛答辩日获「人工智能恶意软件家族分类」全场总冠军，正在申请专利，以便有关技术可实际应用。（图源网络）

恶意软件魔高一丈

高度非结构化的恶意软件，一般包括了ASM（ASCII）和PE（二进制）两种数据的档案结构；ASM属于可执行的代码，内容凭肉眼就可以解读，但PE档则通常由编辑器产生；例如Windows系统的.exe和.dll可执行文件，内容则是二进制的机器码。

这些档案数量之多，难以一一扫描，揪出恶意软件并加以分类。另一种方法是根据软件行为特征，如在接收档案之前，先把档案列为分析目标，储存至默认虚拟环境，通过一系列技术先「观测」其行为；这种方法统称为「沙盒」（Sandbox），典型的就是FireEye，以行为检测APT恶意软件。

不过在检测之前，须清楚软件的行为。有时恶意软件在第一次检测先按兵不动，与「沙盒」斗法，「沙盒」又要读取文件内容，更影响了隐私，且沙盒部署亦相对复杂。

中企通信团队则巧妙利用视觉运算和深度学习，减少了系统的负担，在侦察恶意软件之余，亦可同时分类。在分析数据的过程之中，以AI演算和图像识别，通过视觉运算深度学习，将复杂数据转化为易于辨认的图像。AI模型易于部署，亦不读取内容，检测的只是化身图像。

抽出特征无所遁形

团队首先将文件内容变为色彩图像，RGB应对成三维算法，内容变图像之后，数量仍会过于庞大，团队再以专门学习数据特征的Autoencoder，以弱监督（Weakly supervised learning）的神经网络模型，学习输入数据的隐含特征，先经「编码」（Coding）学习内容特征，再重构原始输入数据，称之为「解码」（Decoding）；如此一来，抽出特征并降低了复杂性，关键是编码之后，较小图像就可代表原始数据；团队反编码测试，发现重新编码后，缩小的图像跟原始图片特征非常一致，有代表性。

「经编码后，少量文件可代表大量PE执行文件产生图片的主要特征，然后利用上述小图为恶意软件作特征分类。」

「恶意软件为了逃避检测，引入不同掩饰，也难逃Autoencoder训练AI模型『法眼』，分析数据过程以AI演算和图像识别，在视觉运算模型的自动识别下，恶意软件实时现形。」

以视觉运算去检测和分类恶意软件，部署也相对简单，可在内部网络或云端上以 GPU算力输入图像作AI模型推理，揪出怀疑档案，扫描大批档案，毋须阅读内容，模型随数据增加，重复训练改善准确度。

李超群说，比赛评委赞扬团队表现，在于技术走出了传统的网络安全思维，单靠数据演算，设计出突破性的AI网络安全检测系统；AI模型采用图像识别技术，已包含多种演算法（AE及LGB），实现了高维度和多方向分类。该团队由5名数据科学家组成。

文章来源：IT Square

关键词： AI恶意软件照妖镜视觉运算揭病毒真身中企通信