标签:测试 类方法 page 执行 搜索 主成分分析 物联网 属性 业务流
机器学习的方法和网络安全
下面我们来讨论一下机器学习的各种方法、应用示例和能够解决的网络安全问题。
回归
回归(或称预测)是简单地通过现有数据的相关知识,来预测新的数据,例如我们可以用来预测房价的走势。
在网络安全方面,我们籍此可以根据诸如可疑交易的数量和位置等特征概率,来检查各种欺诈行为。
就回归的技术而言,我们可以分为机器学习和深度学习两大类。当然这种划分方式也适用于下面提到的其他方法。
机器学习的回归
机器学习的回归方法大致分为如下几种,它们各有利弊:
您可以通过以下链接,来进一步了解每一种方法:
深度学习的回归
以下是深度学习模型所采用的各种回归方法:
分类
分类是对图像进行区分,例如将两堆照片分为狗和猫两大类。在网络安全方面,我们可以籍此通过垃圾邮件过滤器,从各种邮件中甄别出真正垃圾邮件。
在事先准备好所有分类的定义和已知样本的分组之后,我们便可采用监督学习方法进行分类。
机器学习的分类:
业界普遍认为支持向量机和随机森林两种方法的效果最好。请记住,没有一种是放之四海而皆准的万能方法,“此之毒药,彼之蜜糖”。
深度学习的分类:
只要您提供的数据越多,深度学习方法的效果就越好;不过在您的生产环境、和周期性再培训系统中,它也会消耗您更多的资源。
聚类
聚类与分类的唯一不同在于,前者面对的类信息是未知的,即:它并不知道数据是否能够被分类,因此属于无监督学习。
由于安全事件的原因、过程和后果存在着诸多不确定因素,而且需要对所有的行为进行分类,以发现蛛丝马迹,因此业界普遍认为聚类最适合取证分析。
例如,各种恶意软件防护或邮件安全网关之类的解决方案就能通过分析,从各种异常信息中发现与司法取证有关的文件。另外,聚类也可以被用于做用户行为的分析,进而将用户区分为不同的组。
通常情况下,聚类并不被用来单独地解决某项网络安全问题,而是被放置到某个处理任务的管道中,例如:将用户分为不同的组,以调整风险取值。
机器学习的聚类:
深度学习的聚类:
关联式规则学习(推荐系统)
正如 Netflix 和 SoundCloud 会根据您的电影和音乐偏好来进行推荐那样,在网络安全方面,我们可以运用该原理来进行事件响应。
在公司使用不同类型的响应策略,来应对一大波的安全事件时,我们可以使用该系统来学习某项特定事件响应类型,通过标记出误报,进而改变其对应的风险值,以方便调查。
另外,风险管理方案可以根据预定的特征描述来为新的漏洞和错误的配置,自动分配风险值。
机器学习的关联式规则:
深度学习的关联式规则:
降维
虽然降维(或称概括)不像分类那样常用,但它对于那些处理未标记数据、和许多潜在功能的复杂系统来说,却是必须的。
降维可以被用来协助过滤掉不必要的特征。不过就像聚类一样,它通常只是某个更为复杂的模型中的子任务。在网络安全方面,降维常被 iPhone 之类的设备用在人脸识别的整体方案中。
机器学习的降维:
您可以通过以下链接了解到更多有关降维的知识:
生成模型
上面提到的方法是根据已有信息做出决策,而生成模型则是基于过往的决策,来模拟出真实的数据。
在网络安全方面,它通过生成一个带有输入参数的列表,来测试特定应用的各种注入类型的漏洞。
另外 Web 应用的漏洞扫描工具,可以用它来测试未经授权的访问,其原理是:通过变异的文件名来识别出新的文件。
例如,生成模型中的“爬虫”在检测到名为 login.php 的文件后,就会在任何可能的备份和副本中,查找类似的文件名,如:login_1.php、login_backup.php 或 login.php.2017。
机器学习的生成模型:
深度学习的生成模型:
网络安全的需求和机器学习
上面我们是从机器学习方法的角度出发,讨论了可应用到网络安全中的不同场景。
现在让我们从常见的网络安全需求出发,从 Why、What 和 How 三个层面来探讨使用机器学习的机会。
第一个层面:对应的是 Why,即目标或需求(如:检测威胁和预测攻击等)。
根据 Gartner 的 PPDR(Policy Protection Detection Response)模型,所有的安全需求都可分为五大类:
第二个层面:用技术来回答“What”的问题(如:在哪个方面监控问题)。
大致包括如下方面:
上述每个层面都有不同的子类。例如:网络安全可以包括有线、无线或云端环境。注意:根据不同的数据依赖性,最好不要跨层面地使用相同的算法。
第三个层面:应对的是“How”的问题(例如,如何检查某个特定区域的安全)。
大致包括如下方面:
就终端保护而言,您可以按照入侵检测的思想,监控某个可执行文件的各个进程,采用静态的二进制分析,并对目标终端的历史行为进行深度解析。
显然,我们在此不可能面面俱到,下面就让我们从技术层面这个角度来探讨网络安全的各种解决方案。
网络防御中的机器学习
网络防御涉及到诸如以太网、无线、SCADA(Supervisory Control And Data Acquisition,数据采集与监视控制系统)和虚拟网络等方面的解决方案。
在网络防御中,最著名的当属入侵检测系统(IDS)了。虽然它们大多数是基于签名方法的,但是近年来也一直尝试着采用机器学习来提高检测的准确度。
那么机器学习中网络安全中的一种应用就是:网络流量分析(NTA)。它通过对每个层面的网络流量进行深度分析,以发现各种攻击和异常。
下面是具体的应用示例:
您可以通过如下 10 篇学术文章来做进一步的了解:
终端保护中的机器学习
新一代的反病毒软件是终端检测和响应(Endpoint Detection And Response),它更适合于学习各种可执行文件及其内部进程中的行为特征。
在使用机器学习来应对终端层面上的安全问题时,您的具体方案应根据终端的差异性而有所不同。
总的来说,对于工作站、服务器、容器、云实例、移动端、PLC(可编程逻辑控制器)和物联网设备等类型的终端而言,虽然它们各自的具体情况不尽相同,但是我们在方法上可以总结出如下的共性:
您可以通过如下 3 篇学术文章来进一步了解终端保护和恶意软件:
应用安全中的机器学习
应用安全不仅仅是 Web 应用防火墙和代码分析,还涉及到数据库、ERP 系统、SaaS 应用、和微服务等静态与动态方面。
因此,我们无法通过建立一个通用的机器学习模型,来有效地应对所有方面的威胁。
下面让我们试着通过几个典型场景,来讨论如何将机器学习运用到应用安全之中:
您可以通过如下 3 篇学术文章来做进一步的了解:
用户行为中的机器学习
该领域的最早应用案例是:安全信息和事件管理(SIEM)。通过恰当的配置,SIEM 能够凭借对用户行为的搜索和机器学习,来实现日志的关联与分析。
不过用户和实体行为分析(UEBA)理论则认为 SIEM 无法真正处理更新的、更先进的攻击类型,以及持续的用户行为改变。
UEBA 工具需要监控的用户类型包括:域用户、应用程序用户、SaaS 用户、社交网络用户和即时通信用户等。
不同于恶意软件检测的仅根据常见的攻击,训练分类器的概率;用户行为是一个更为复杂的层面,并会涉及到无监督学习。
由于此类数据集既未被标记,又没有清晰的查找方向;因此我们同样无法为所有用户的行为,创建统一的算法。
以下是各个公司通常用到的机器学习方法:
您可以通过如下 2 篇学术文章来做进一步的了解:
流程行为中的机器学习
不同企业的业务流程可能存在着巨大的差异,我们对于银行、零售系统、和制造业中,各种欺诈行为的检查也会有所不同。
因此,只有具备一定的行业背景知识,我们才能在机器学习的功能建模和算法的选择上,更具有流程行为的针对性。
下面是被运用到工业控制系统(ICS)和数据采集与监视控制系统(SCADA)领域的通用方法:
您可以通过如下 3 篇学术文章来做进一步的了解:
有关机器学习的网络安全丛书
当然,如果您想了解更多关于网络安全中的机器学习,还可以参阅如下书籍:
①《网络安全中的AI》(2017)--Cylance 出版
简介:本书不厚,却能很好地介绍网络安全中的机器学习基础知识,同时配有各种实践案例。
链接:
②《机器学习和安全》(2018/01)-- O‘Reilly 出版
简介:迄今为止,该领域的最好书籍,机器学习的示例较多,深度学习的范例偏少。
链接:
③《渗透测试中的机器学习》(2018/07)-- Packt 出版
简介:知识难度上较前两本有所拔高,提供更多深度学习的方法。
链接:
④《恶意软件的数据科学:攻击检测和属性》(2018/09)
简介:本书聚焦于恶意软件。由于它是新近出版,故尚无评论,但必将成为终端保护团队的必备书籍。
链接:
结论
本文上述讨论的只是机器学习在网络安全领域应用的冰山一角。随着企业数据量的增多、系统的复杂化以及深度学习应用的不断改进,我们需要不断地通过实践,让安全防御变得越来越智能。
当然,道高一尺魔高一丈,黑客们也在各个角落里通过机器学习,努力提升他们的攻击能力。
标签:测试 类方法 page 执行 搜索 主成分分析 物联网 属性 业务流
原文地址:https://www.cnblogs.com/bjxq-cs88/p/10096337.html