人工智能(即Artificial Intelligence,简称AI)是计算机科学研究领域的重要方向,其起源直接可以追溯至现代计算机未正式诞生之前,但其真正具有广泛实用价值应看作为21世纪的初叶,可以预见在未来的若干年中,随着计算机硬件工艺极大的提高、网络带宽迅速增长,笔者认为人工智能应在计算机科学的若干细分领域中占有最为重要的作用,它也会极为广泛地被其它学科所应用,可以认为21世纪实际就是“泛人工智能”的时代。
与人工智能相较,计算机领域中的信息安全分支起源较迟,应该可以认为是上世纪80年代开始兴起,90年代至今都在不断发展的一门多交叉、边缘性学科;其从最初的、比较单一的杀毒软件开始(与数据加密一起可以认为是当代信息安全产业的滥觞,当然数据加解密实际上是信息安全最初的需要,但杀毒软件最为人们所熟知),其后又发展了防火墙、入侵检测系统,它们与杀毒软件一起被称作信息安全产品的“老三样”或者被称为“三架马车”;随着信息安全地不断发展、严峻的信息安全形式以及客户的要求,单一的安全产品已然无法满足现实情况,笔者将信息安全的发展划分为如下几个阶段:
第一阶段:单一安全产品阶段,即各种信息安全产品各自为站,每种安全产品各管一块,其形态也基本上为网关型、主机型等;
第二阶段:综合安全产品阶段(含解决方案),此类产品提供了单一安全产品所无法具备的一些功能,比如UTM类产品(统一威胁网关)、安全管理中心等,此类产品可能包含若干种功能,而且它们应能将相关信息进行相关关联,在一定范围内和一定深度内进行一般性的挖掘,从而达到单一产品所无法完成的任务,但其能力应该也仅仅是在“一定”之内;
第三阶段:此阶段目前似乎没有太多定论,一般而言可能是指所谓的大数据安全、云安全,但个人认为无论是大数据还是云安全都没法准确刻画、描述和解决我们当前面临的各类复杂的安全问题,例如零日漏洞、社会工学(一般可指钓鱼,无论是短信方式还是邮件方式等)、海量的恶意软件变种等等,不一而足,所以此阶段应该被称为“人工智能安全产品”时代。因为面对当前如此复杂的信息安全形势、如此巨大的数据信息、如此“狡诈”的网络犯罪手段,仅仅依赖各类传统方法(包括一般的关联手段等)是无法解决的。
当然,人工智能也是无法解决所有信息安全问题,部分的问题还是需要一些管理手段,但窃以为以往提出的在信息安全领域中的“三分技术,七分管理”是值得商榷的,个人坚持“七分技术,三分管理”,因为无论何时、何种场合,“科学技术是第一生产力”,如果技术手段都无解决,那么管理手段能解决的范围和程度也是相当有限的;应该强调的一点是,正确的、适度的、合理的管理手段是必不可少的,否则其结果不是增加安全运维人员的负荷就是得到错误的结论。
其实,通过对过往安全产品的回溯,我们可以认为人工智能应早就渗透到各种类型产品的“血液”之中,其程度或浅或深,其效果或显著或不甚明显。其中较为著名的如反垃圾邮件开源系统——Spam Assassin,在其中使用了一些诸如朴素贝叶斯的方法,它对可能今后未知的垃圾邮件进行打分和分类,这个开源项目目前仍被较好地维护。通过实验,现在看来其效果还是不错的(不过它使用的是Python进行训练和识别,速度略慢,但在一般情况下处理邮件还是绰绰有余了)。
通过上节的例子,我们可以看出人工智能在信息安全上已经有了不错的应用,那么其还能解决哪些问题?
人工智能其实也包含若干个不同的用途,笔者以为包括:
1. 分类:如在上例中对于垃圾邮件、钓鱼邮件/短信的分类,即区分安全和不安全问题;各种分类模型或算法是人工智能技术应用于信息安全领域的最为重要的手段或方法;
2. 聚类:目前还没有看到在安全产品中有被广泛地应用;
3. 回归分析和预测:这个已经被广泛地运用于一些网络类型的信息安全产品;
4. 规则挖掘:在信息安全领域,这种方法似乎没有被大范围使用,难道用不到?
5. 距离分析(其实聚类分析也是一种比较典型的距离分析):此类方法在一些网络流量类产品中有比较好的应用,但安全也和网络是密不可分的;
6. 假设检验:可以对一些对象的行为进行分类并建立基线,使用假设检验的方法来预测。
综上所述,网络安全与人工智能,特别是“机器学习”具有密不可分的关系,其中分类是最为重要的手段;只有通过对于不同数据的分类,方可识别恶意行为和正常行为,才能比较有效地处理安全问题,其它方法也是比较常用的手段,它们共同组成安全产品的“智脑”。
当然,不是安全产品仅仅具备人工智能这一项装备就万事大吉了,还是要结合一些传统的,诸如特征(如MD5等)、一般性策略、名誉技术(其实也就是各类黑白名单库)等方能充分发挥其效能。另外,信息的收集、处理(各类信息的元数据抽取)、识别(如对于网络包的深度识别技术)、基础统计等也是必不可少的(因为,各类人工智能算法并不是处理大数据的),这些步骤方是大数据安全的“前奏”。
那么,在一些信息安全产品中,最需要通过人工智能技术解决哪些问题?答案应是对各类未知威胁的检测。可以想象,如果一款安全产品总是需要或仅仅依赖各类特征来发现问题,那么其时效性、有效性均会存在巨大隐患,在某种程度而言,它其实就是最大的“黑洞”。另外,需要说明一点的是,经过训练的数据特征是需要升级的,这个只靠单个结点可能是无法胜任的。
既然人工智能与信息安全产品有如此深刻的关系,那么我们需要梳理下当前信息安全信息形式下在哪些方面应应用哪些相关技术(包括已经使用的和可能在未来需要使用的):
1. 关于动态域名的识别:由于目前木马已在各类恶意软件中占有统治力的地位(纯粹只具备破坏性的病毒,由于利益问题,占比基本很小),而且木马主要的行为就是利用远程控制方法来进行操控、渗透、重要信息的获取和偷窃,多数木马会使用动态域名的方法与远程服务器进行交互以逃避静态名单的检测及阻断,故对于动态域名的识别是防止木马的重要一环,这只能通过人工智能的方法并配合静态名单来满足要求;
2. 钓鱼行为的识别:在当前阶段,利用社会工学的手段,使用短信(普通短信及彩信)、邮件等途径诱骗用户点击、下载恶意软件已经成为社会信息安全的毒瘤,而这些钓鱼手段防不甚防,如文字具有非常的诱惑力且文字间插入很多特殊字符以迷惑识别软件、图像中隐藏恶意链接等等,隐蔽性很强,一般受害者根本无法辨识,故在很多场合亟需具备一定智能的软件去不断学习和识别这些问题;
3. 不断演进的恶意软件形态识别:目前,由于恶意软件的伪装方法十分隐蔽,如加壳甚至是私有壳、分段组装、延迟执行、反沙箱或反虚拟化等等,虽然利用沙箱可以检测出部分行为,但存在两个问题:其一是沙箱的能力十分有限,而且可能产生比一些误报,在很多场合下还需进行人工分析;其二是沙箱的性能十分有限,运行一个样本,在一般情况下可能需要若干分钟,如果将同一个样本放置在不同种类的沙箱中,那么消耗的资源和时间都是十分惊人的,故需要更好的静态识别方法(不仅仅是特征码),以减少沙箱运行的次数;
4. 对于异常流量的识别:如果企业对于自身的网络连接行为约束得较好(不过这也不排除某些合法站点被挂马),那么可能对于这个方面的防护要求并不是太高(但也未必不会产生问题),但是从安全性的角度而言,非法的外联、内联永远也是企业安全的最大问题来源,这个也无法杜绝使用“摆渡”方式来偷窃企业敏感信息的手段,故对于不断增长的网络连接行为的检视和审计就成为可能“阻断”企业信息泄密的最后方法,但如何有效刻画网络连接、通讯的各类特征、内网各个结点的网络行为、用户网络行为就成为非常重要的一环,但这里仍需要使用一些人工智能及统计学的方法。
以上阐述的几个方面可能不过是信息安全产品所需要解决的众多问题中的几个重要方面,但具体而言,特别是在目前大数据、云计算环境下,一个具备“智脑”的信息安全产品应具有如下几项特点:
第一,至少具备分布式的产品架构,能多个抓取点所获取的不同种类的数据有分析、特征提取的能力;
第二,具备一定能力以提供对数据建模的功能,当然,提供建模的方法或接口最好有用户自定义模块;
第三,也是最重要的一环是,应提供较为丰富的人工智能应用,比如集成如朴素贝叶斯方法、贝叶斯网络、Hopfield/BP神经网络、卷积神经网络、波尔兹曼神经网络、深度置信神经网络、n-gram方法(参见文献[4])、遗传算法、模拟退火、支持向量机(Support Vector Machine,简称SVM)、k-means、LDA、Apriori等等,为此应还需要集成各类向量/矩阵运算(能支持上百个维度)、空间距离运算(如欧氏距离、马氏距离等)、统计数字特征分析、假设检验分析等,方可在面对处理不同问题时“游刃有余”。比较好的一点是,很多开源库已经提供了这些功能,如R、Octave、libsvm等,一般所要做的工作不过是恰当地抽取特征和合适地模型建立。
总之,对于一个不具备“智脑”的信息安全产品而仅仅依赖静态特征运作,其在识别、防御“未知威胁”上肯定会存在这样或那样的问题,也无法应对日益复杂的信息安全问题。
通过上面的论述,可以看出当前信息安全类产品(无论是防御类还是主动发现类)所使用的人工智能技术主要是基于一般机器学习方法的,而且此类机器学习方法还是比较集中在所谓“有师类(即有监督)”学习,而随着技术的不断发展和演进,信息安全类产品应及时将新的人工智能技术和手段不断集中进来,更多地使用“无师类(即无监督)”的学习方法方可应对不断恶化的信息安全形势,即更大地提高产品的智能化水平,从而在应对各类问题的时效性和有效性上更进一步。
俗话说:“道高一尺,魔高一丈”,信息安全(无论是互联网安全、内网安全还是其它方面的安全)永远是一场“没有硝烟的战争”,攻防两端的理论、实践(包括各种技术、手段、方法等)也不断在发展,可以预见未来的信息安全战争就是:“人工智能对抗人工智能、机器学习对抗机器学习,甚至是机器人对抗机器人!。”
原文地址:http://13345387.blog.51cto.com/13335387/1967838