3377体育网官网入口

证券简称:3377体育网官网入口 证券代码:002212
7x24小时服务: 400-777-0777

人工智能清静|AI清静应用|基于图像分类的恶意代码同源剖析

恶意代码(Malicious/Unwanted Code)泛指所有会对网络或系统爆发威胁或潜在威胁的盘算机代码,,, , ,,,造成目的系统信息泄露、资源滥用、破损系统完整性及可用性、违交恶的系统清静战略等危害。。。。。

人工智能清静|AI清静应用|基于图像分类的恶意代码同源剖析

宣布时间:2021-10-15
浏览次数:8145
分享:

01 配景

恶意代码(Malicious/Unwanted Code)泛指所有会对网络或系统爆发威胁或潜在威胁的盘算机代码,,, , ,,,造成目的系统信息泄露、资源滥用、破损系统完整性及可用性、违交恶的系统清静战略等危害。。。。。

近年来,,, , ,,,虽然恶意代码爆发式增添,,, , ,,,但清静研究职员发明,,, , ,,,许多新型恶意代码都是已有恶意代码的变种,,, , ,,,这些变种许多是黑客使用变形、加壳、多态、代码扰乱等手艺制造的,,, , ,,,可以逃避是非名单、特征码匹配等古板的检测手艺[1][10]。。。。。现实上,,, , ,,,这些变种征象反应了恶意代码之间的同源关系。。。。。例如,,, , ,,,2017年泛起的WannaCry现实上与已知病毒Wcy具有同源关系,,, , ,,,但该病毒绕过了种种检测工具,,, , ,,,造成了严重的经济损失。。。。。因此,,, , ,,,发明同源关系逐渐成为网络清静领域关注焦点。。。。。

恶意代码同源剖析(Homology Analysis)是指通过恶意代码内外部特征以及天生和撒播的纪律,,, , ,,,剖析恶意代码之间衍生的关联性。。。。。同源关系有许多种,,, , ,,,包括:家族同源、开发者同源、类型同源或者攻击源同源等。。。。。本文主要关注恶意代码类型同源剖析问题。。。。。唬;;;;;诙褚獯肜嘈屯雌饰,,, , ,,,可以资助检测、预警恶意代码,,, , ,,,制订应急响应计划以及展望事务生长趋势。。。。。

本文首先先容了相关基础知识,,, , ,,,简朴回首了同源剖析剖析手艺现状,,, , ,,,然后先容了基于图像分类的同源剖析手艺计划设计,,, , ,,,最后通过详细实验验证了基于图像分类的同源剖析手艺的有用性。。。。。

02 基础知识

2.1 类型同源

恶意代码类型多种多样,,, , ,,,包括盘算机病毒、蠕虫、木马程序、后门程序、逻辑炸弹等。。。。。每一类恶意代码往往会在以下三个方面保存相似性。。。。。

(1)要害代码段

指为了实现某一恶意功效,,, , ,,,同源恶意代码在要害代码片断(如DLL注入、RPC服务)具有相似性,,, , ,,,这些相似代码片断也被称为基因码。。。。。

(2)系统函数挪用

恶意行为的操作通常依赖对操作系统函数的挪用,,, , ,,,同源恶意代码挪用的函数名称、频次、顺序等可能保存类似。。。。。

(3)功效行为

每一类恶意代码都有针对性的破损行为,,, , ,,,如勒索软件会读写用户数据、远程控制木马会审查屏幕或摄像头,,, , ,,,功效行为的相似性反应在文件、历程、网络及注册表等方面。。。。。

2.2 图像化

图像化即恶意代码字节约内容的可视化展示,,, , ,,,而流内容包括了一个组装恶意代码完整的信息,,, , ,,,例如PE名堂恶意代码的头部、数据节、代码节、尾部等。。。。。

黑客经常使用开源的恶意代码片断,,, , ,,,经由进一步开发、包装之后,,, , ,,,形成恶意代码变种;;;;;;;相同功效或者统一家族的恶意代码,,, , ,,,也会共享代码片断。。。。。因此,,, , ,,,共享片断体现为相似的的流内容,,, , ,,,进而映射为图像中相似的纹理。。。。。

图1,,, , ,,,2展示某些流氓软件(Application)两个家族InstallMonster和Hacktool图像化效果。。。。。??? ??梢钥吹絀nstallMonster和Hacktool类的示例样本即便来自差别的家族,,, , ,,,纹理上却具有显着相似性。。。。。

图1. Application-InstallMonster

图2. Application-Hacktool

3 现状剖析

与恶意代码检测手艺相同,,, , ,,,同源剖析所接纳的特征也分为静态特征和动态特征。。。。。静态特征包括:恶意代码的组装结构特征、API序列特征、代码语义、二进制内容特征等[1]。。。。。动态特征通常为控制流程图、读取及修改的相关资源工具特征、API动态挪用。。。。。唬;;;;;袢√卣髦,,, , ,,,可以接纳关联剖析、机械学习分类以及图剖析等要领完成溯源。。。。。

关联剖析即盘算恶意代码特征的相似度,,, , ,,,例如Jaccard系数[14,15]、海明距离、余弦距离等,,, , ,,,凭证相似度判断恶意代码之间是否保存关联。。。。。唬;;;;;谙嗨贫绕饰,,, , ,,,以恶意代码为节点、相似度为边,,, , ,,,可以构建恶意代码关系网络,,, , ,,,主要用于族群可视化,,, , ,,,进一步溯源、挖掘大宗离散恶意代码之间的关联[18]。。。。。SVM、XGBoost[14]、DBScan[10,15]、模糊哈希[14]等常见的分类算法,,, , ,,,都在恶意代码同源剖析中有响应的研究与应用。。。。。

图剖析作用于恶意代码的控制流程图,,, , ,,,提取收支度(Out/In degree)、中心中心性(Betweenness centrality)、群集系数(Clustering coefficient)等图结构怀抱[16],,, , ,,,通过盘算这些怀抱的相似性,,, , ,,,判断恶意代码是否保存关联。。。。。使用图剖析还可以在族群中挖掘相似子图形成族群基因,,, , ,,,通过基因比照判断恶意代码是否同源[12]。。。。。赵等人运用了图卷积网络(Graph Convolutional Network,,, , ,,,GCN)手艺,,, , ,,,对恶意代码的API挪用图举行分类,,, , ,,,从而剖析同源性[17]。。。。。

2011年,,, , ,,,Nataraj等人提出将恶意代码的流内容转换成灰度图像,,, , ,,,然后提取GIST、局部空间平均值等特征,,, , ,,,团结KNN算法对恶意代码举行分类[3]。。。。。随后,,, , ,,,泛起了一些研究延续该思绪,,, , ,,,好比将字节熵[4]、API挪用[5]、opcode哈希[7]等转换为图像,,, , ,,,卷积神经网络(Conventional Neural Network,,, , ,,,CNN)[7]、是非期影象(Long-short Term Memory,,, , ,,,LSTM)网络[8,9]等深度学习要领相继被应用于恶意代码同源剖析。。。。。

接纳图像分类手艺的同源剖析要领,,, , ,,,不要求剖析职员具备逆向工程专业知识,,, , ,,,并且无需人工提取特征,,, , ,,,因此应用起来较量无邪。。。。。得益于盘算机视觉领域的快速生长,,, , ,,,这种要领也能够取得较高的准确性。。。。。以下重点先容该类手艺。。。。。

4 计划设计

基于图像分类的同源剖析计划中,,, , ,,,典范的实现手艺就是基于CNN的恶意代码同源剖析手艺计划,,, , ,,,主要包括以下部分组成:

(1)数据集构建:确定恶意代码的种别划分方法,,, , ,,,网络样本并标注种别,,, , ,,,作为训练数据。。。。。本文以类型作为种别划分方法。。。。。

(2)图像化处置惩罚:将训练样本转化为图像,,, , ,,,作为CNN网络的输入。。。。。

(3)CNN网络构建:构建出CNN神经网络结构(如VGGNet、GoogleNet、ResNet等)。。。。。

(4)模子训练:将训练数据输入CNN网络举行训练,,, , ,,,获得分类模子。。。。。

(5)模子应用:将待测样本图像化,,, , ,,,输入分类模子,,, , ,,,凭证输出种别判断所属种别。。。。。应用流程如图3所示:

图3. 基于CNN图像分类的恶意代码同源剖析流程

5 实验剖析

本实验中网络了7种类型的恶意代码样本,,, , ,,,详细见表1。。。。。

表1. 实验数据集

数据集凭证比例4:1划分为训练集和测试集。。。。。唬;;;;;诠菇–NN网络结构,,, , ,,,经由200次迭代训练,,, , ,,,模子损失收敛至0.0088,,, , ,,,训练准确率抵达0.9957。。。。。图4展示模子的训练历程。。。。。

图4. 训练历程

表2列出了模子在测试集上的各项测试指标,,, , ,,,总体准确率为0.93。。。。。

图5为测试的混淆矩阵。。。。。在实验的7个种别中,,, , ,,,Trojan作为较重大的一种恶意代码类型,,, , ,,,测试准确性最低。。。。。

表2. 测试性能

图5. 混淆矩阵

6 总结

恶意代码同源剖析,,, , ,,,一方面可追踪定位攻击泉源或攻击者,,, , ,,,阻止APT攻击,,, , ,,,对黑客爆发震慑攻击作用;;;;;;;另一方面,,, , ,,,恶意软件检测手艺保存疏漏,,, , ,,,同源剖析可协助检测、提防恶意软件。。。。。本文通太过析及验证,,, , ,,,以为基于图像分类的恶意代码同源剖析具备可行性。。。。。但恶意代码的类型之间错综重大,,, , ,,,没有明确的划分界线,,, , ,,,也是限制分类准确性的缘故原由之一。。。。。家族显然是比类型越发准确的一种同源划分方法。。。。。然而,,, , ,,,有些家族样本数目重大,,, , ,,,有些家族仅有少量可追溯的样本,,, , ,,,若以家族划分种别,,, , ,,,则需要解决样本不平衡问题。。。。。通过起源判断,,, , ,,,若是增添种别划分的细粒度,,, , ,,,分类准确率会获得进一步提升,,, , ,,,虽然这些问题有待进一步探索。。。。。

参考文献

[1]褚乾峰, 朱信宇, 刘功申. 恶意代码同源判断手艺综述[J]. 通讯手艺, 2017, 50(007):1484-1492.

[2]Goldberg L, Goldberg P, Phillips C, et al. Constructing Computer Virus Phylogenies[J]. Journal of

Algorithms,1998,26(01):188-208.

[3]Nataraj L, Karthikeyan S, Jacob G, et al. Malware images: visualization and automatic classification[C]. IEEE Symposium on Visualization for Cyber Security, Pittsburg, PA, USA, ACM. 2011.

[4]Han K S , Lim J H , Kang B , et al. Malware analysis using visualized images and entropy graphs[J]. International Journal of Information Security, 2015, 14(1):1-14.

[5]Kolosnjaji B , Zarras A , Webster G , et al. Deep Learning for Classification of Malware System Call Sequences[C]// Australasian Joint Conference on Artificial Intelligence. Springer International Publishing, 2016.

[6]Ni S , Qian Q , Zhang R . Malware identification using visualization images and deep learning[J]. Computers & Security, 2018, 77(AUG.):871-885.

[7]Raff E , Barker J , Sylvester J , et al. Malware Detection by Eating a Whole EXE. 2017.

[8]Quan, Boydell, Oisin, et al. Deep learning at the shallow end: Malware classification for non-domain experts[J]. Digital investigation: The internatnional journal of digital forensics & incident response, 2018.

[9]Venkatraman S , Alazab M , Vinayakumar R . A hybrid deep learning image-based analysis for effective malware detection[J]. Information Security Technical Report, 2019, 47(Aug.):377-389.

[10]钱雨村,,, , ,,,彭国军,,, , ,,,王滢等.恶意代码同源性剖析及家族聚类. 盘算机工程与应用,,, , ,,,2015,,, , ,,,56(18):76-81.

[11]Park L, Yu J, Kang H K, et al. Birds of a Feature: Intrafamily clustering for version identification of packed malware[J]. IEEE systems journal, 2020,14(3):4545-4556.

[12] Zhao B L, Shan Z, Liu F D, et al. Malware homology identification based on a gene perspective[J]. 信息与电子工程前沿:英文版, 2019(6):801-815.

[13]Li Y, Sundaramurthy S C, Bards A G, et al. Experimental study of fuzzy hashing in malware clustering analysis[C]. Usenix, Washington DC, USA, 2015: 1-8.

[14]Ahmadi M , Giacinto G , Ulyanov D , et al. Novel feature extraction, selection and fusion for effective malware family classification[DB]. 2015.

[15]Kinable J,Kostakis O.Malware Classification based on Call Graph Clustering[J].Journal of Computer Virology and Hacking Techniques,2011,7(04):233-245.

[16]Jang J W , Woo J , Mohaisen A , et al. Mal-Netminer: Malware Classification Approach Based on Social Network Analysis of System Call Graph[J]. Mathematical Problems in Engineering,2015,(2015-10-1), 2015, 2015(PT.18):731-734.

[17]赵炳麟, 孟曦, 韩金,等. 基于图结构的恶意代码同源性剖析[J]. 通讯学报, 2017, v.38;No.365(S2):86-93.

[18]Sanders H, Saxe J. Malware data science: Attack detection and attribution[M]. No Starch Press, 2018.

[19]Ronen R , Radu M , Feuerstein C , et al. Microsoft Malware Classification Challenge[DB]. 2018. https://arxiv.org/pdf/1802.10135.pdf.

版权声明

转载请务必注明来由。。。。。

版权所有,,, , ,,,违者必究。。。。。

要害词标签:
3377体育网官网入口 人工智能清静 AI清静应用 恶意代码同源剖析
客户服务热线

400-777-0777
7*24小时服务

联系邮箱

servicing@topsec.com.cn

扫码关注
【网站地图】【sitemap】