坐标点(0,1)**一个完美的分类器,它将所有的样本都正确分类。roc曲线越接近左上角,该分类器的性能越好。从图9可以看出,该方案的roc曲线非常接近左上角,性能较优。另外,前端融合模型的auc值为。(5)后端融合后端融合的架构如图10所示,后端融合方式用三种模态的特征分别训练神经网络模型,然后进行决策融合,隐藏层的***函数为relu,输出层的***函数是sigmoid,中间使用dropout层进行正则化,防止过拟合,优化器(optimizer)采用的是adagrad,batch_size是40。本次实验使用了80%的样本训练,20%的样本验证,训练50个迭代以便于找到较优的epoch值。随着迭代数的增加,后端融合模型的准确率变化曲线如图11所示,模型的对数损失变化曲线如图12所示。从图11和图12可以看出,当epoch值从0增加到5过程中,模型的训练准确率和验证准确率快速提高,模型的训练对数损失和验证对数损失快速减少;当epoch值从5到50的过程中,前端融合模型的训练准确率和验证准确率小幅提高,训练对数损失和验证对数损失缓慢下降;综合分析图11和图12的准确率和对数损失变化曲线,选取epoch的较优值为40。确定模型的训练迭代数为40后,进行了10折交叉验证实验。企业数字化转型指南:艾策科技的实用建议。沈阳软件检测报告厂家有哪些
**小化对数损失基本等价于**大化分类器的准确度,对于完美的分类器,对数损失值为0。对数损失函数的计算公式如下:其中,y为输出变量即输出的测试样本的检测结果,x为输入变量即测试样本,l为损失函数,n为测试样本(待检测软件的二进制可执行文件)数目,yij是一个二值指标,表示与输入的第i个测试样本对应的类别j,类别j指良性软件或恶意软件,pij为输入的第i个测试样本属于类别j的概率,m为总类别数,本实施例中m=2。分类器的性能也可用roc曲线(receiveroperatingcharacteristic)评价,roc曲线的纵轴是检测率(true****itiverate),横轴是误报率(false****itiverate),该曲线反映的是随着检测阈值变化下检测率与误报率之间的关系曲线。roc曲线下面积(areaunderroccurve,auc)的值是评价分类器比较综合的指标,auc的值通常介于,较大的auc值一般表示分类器的性能较优。(3)特征提取提取dll和api信息特征视图dll(dynamiclinklibrary)文件为动态链接库文件,执行某一个程序时,相应的dll文件就会被调用。一个应用程序可使用多个dll文件,一个dll文件也可能被不同的应用程序使用。api(applicationprogramminginterface)函数是windows提供给用户作为应用程序开发的接口。上海软件测评深圳艾策信息科技:打造智慧供应链的关键技术。
所述生成软件样本的dll和api信息特征视图,是先统计所有类别已知的软件样本的pe可执行文件引用的dll和api信息,从中选取引用频率**高的多个dll和api信息;然后判断当前的软件样本的导入节里是否存在选择出的某个引用频率**高的dll和api信息,如存在,则将当前软件样本的该dll或api信息以1表示,否则将其以0表示,从而对当前软件样本的所有dll和api信息进行表示形成当前软件样本的dll和api信息特征视图。进一步的,所述生成软件样本的格式信息特征视图,是从当前软件样本的pe格式结构信息中选取可能区分恶意软件和良性软件的pe格式结构特征,形成当前软件样本的格式信息特征视图。进一步的,所述从当前软件样本的pe格式结构信息中选取可能区分恶意软件和良性软件的pe格式结构特征,是从当前软件样本的pe格式结构信息中确定存在特定格式异常的pe格式结构特征以及存在明显的统计差异的格式结构特征;所述特定格式异常包括:(1)代码从**后一节开始执行,(2)节头部可疑的属性,(3)pe可选头部有效尺寸的值不正确,(4)节之间的“间缝”,(5)可疑的代码重定向,(6)可疑的代码节名称,(7)可疑的头部***,(8)来自,(9)导入地址表被修改,(10)多个pe头部,(11)可疑的重定位信息,。
3)pe可选头部有效尺寸的值不正确,(4)节之间的“间缝”,(5)可疑的代码重定向,(6)可疑的代码节名称,(7)可疑的头部***,(8)来自,(9)导入地址表被修改,(10)多个pe头部,(11)可疑的重定位信息,(12)把节装入到vmm的地址空间,(13)可选头部的sizeofcode域取值不正确,(14)含有可疑标志。存在明显的统计差异的格式结构特征包括:(1)无证书表;(2)调试数据明显小于正常文件,(3).text、.rsrc、.reloc和.rdata的characteristics属性异常,(4)资源节的资源个数少于正常文件。生成软件样本的字节码n-grams特征视图,是统计了每个短序列特征的词频(termfrequency,tf),即该短序列特征在软件样本中出现的频率。先从当前软件样本的所有短序列特征中选取词频tf**高的多个短序列特征;然后计算选取的每个短序列特征的逆向文件频率idf与词频tf的乘积,并将其作为选取的每个短序列特征的特征值,,表示该短序列特征表示其所在软件样本的能力越强;**后在选取的词频tf**高的多个短序列特征中选取,生成字节码n-grams特征视图。:=tf×idf;tf(termfrequency)是词频,定义如下:其中,ni,j是短序列特征i在软件样本j中出现的次数,∑knk,j指软件样本j中所有短序列特征出现的次数之和。用户体验测评中界面交互评分低于同类产品均值15.6%。
且4个隐含层中间间隔设置有dropout层。用于输入合并抽取的高等特征表示的深度神经网络包含2个隐含层,其***个隐含层的神经元个数是64,第二个神经元的隐含层个数是10,且2个隐含层中间设置有dropout层。且所有dropout层的dropout率等于。本次实验使用了80%的样本训练,20%的样本验证,训练50个迭代以便于找到较优的epoch值。随着迭代数的增加,中间融合模型的准确率变化曲线如图17所示,模型的对数损失变化曲线如图18所示。从图17和图18可以看出,当epoch值从0增加到20过程中,模型的训练准确率和验证准确率快速提高,模型的训练对数损失和验证对数损失快速减少;当epoch值从30到50的过程中,中间融合模型的训练准确率和验证准确率基本保持不变,训练对数损失缓慢下降;综合分析图17和图18的准确率和对数损失变化曲线,选取epoch的较优值为30。确定模型的训练迭代数为30后,进行了10折交叉验证实验。中间融合模型的10折交叉验证的准确率是%,对数损失是,混淆矩阵如图19所示,规范化后的混淆矩阵如图20所示。中间融合模型的roc曲线如图21所示,auc值为,已经非常接近auc的**优值1。(7)实验结果比对为了综合评估本实施例提出融合方案的综合性能。从传统到智能:艾策科技助力制造业升级之路。厦门第三方软件测评公司
艾策医疗检测中心为体外诊断试剂提供全流程合规性验证服务。沈阳软件检测报告厂家有哪些
此外格式结构信息具有明显的语义信息,但基于格式结构信息的检测方法没有提取决定软件行为的代码节和数据节信息作为特征。某一种类型的特征都从不同的视角反映刻画了可执行文件的一些性质,字节码n-grams、dll和api信息、格式结构信息都部分捕捉到了恶意软件和良性软件间的可区分信息,但都存在着一定的局限性,不能充分、综合、整体的表示可执行文件的本质,使得检测结果准确率不高、可靠性低、泛化性和鲁棒性不佳。此外,恶意软件通常伪造出和良性软件相似的特征,逃避反**软件的检测。技术实现要素:本发明实施例的目的在于提供一种基于多模态深度学习的恶意软件检测方法,以解决现有采用二进制可执行文件的单一特征类型进行恶意软件检测的检测方法检测准确率不高、检测可靠性低、泛化性和鲁棒性不佳的问题,以及其难以检测出伪造良性软件特征的恶意软件的问题。本发明实施例所采用的技术方案是,基于多模态深度学习的恶意软件检测方法,按照以下步骤进行:步骤s1、提取软件样本的二进制可执行文件的dll和api信息、pe格式结构信息以及字节码n-grams的特征表示,生成软件样本的dll和api信息特征视图、格式信息特征视图以及字节码n-grams特征视图。沈阳软件检测报告厂家有哪些
深圳艾策信息科技有限公司免责声明: 本页面所展现的信息及其他相关推荐信息,均来源于其对应的商铺,信息的真实性、准确性和合法性由该信息的来源商铺所属企业完全负责。本站对此不承担任何保证责任。如涉及作品内容、 版权和其他问题,请及时与本网联系,我们将核实后进行删除,本网站对此声明具有最终解释权。
友情提醒: 建议您在购买相关产品前务必确认资质及产品质量,过低的价格有可能是虚假信息,请谨慎对待,谨防上当受骗。