码迷,mamicode.com
首页 > 其他好文 > 详细

大数据、机器学习与信息安全

时间:2017-09-22 12:00:56      阅读:100      评论:0      收藏:0      [点我收藏+]

标签:机器学习 信息安全

    从机器学习的角度来看,大数据不过是训练各类参数、概率分布模型的输入。合适的、经过筛选的、符合事物客观特征描述的大数据方才是好的数据,故在目前这个所谓“泛大数据时代”,数据确实是最为精贵的资源,但并不是所有数据都是,我们只能去芜存菁方可认清数据的本质以及事物(包括人类自身)的本质。因此对于数据的处理反而变成了最最重要的问题。

        

     从经典定义来看,机器学习对于特性输出的提高,其最重要关键点不在算法(当然,好的算法也是非常重要的基础,是成功的必要条件,是减少开销、尽量少的消耗资源的核心)而是在于是否占有更大、更好的数据,从而训练出更为出色的模型,其输出主要是各类参数,至少在“弱人工智能时代”,其价值也是在于这些参数。因为人工智能的定义更为宽泛,它包含一些不多的、不主要依赖于数据学习的方法,AI这个大概念不是我们讨论的要点。以神经网络为例,定理告诉我们对于任何连续函数,可以以任意精度去逼近,先决条件是隐层的神经元越多越好。

    

     对于机器学习而言,最重要目标是对客观数据进行分类,其它任务已经变得不太重要了。无论我们谈到的支持向量机、神经网络、聚类等等无不是基本围绕分类这个主题进行的!

     

     以我的观点来看,信息安全本质是提供可信、可靠的服务和数据(注意,这个定义的修饰词不仅仅是可信,还有可靠,存在一定区别,因为我们不能忽视DOS/DDOS攻击,这会造成服务的不可靠而不是不可信,这个观点与吴瀚清略有所区别)。但目前我们可能还是无法直接运用机器学习的方法来规避DDOS攻击,因为无论在网络层还是应用层,抵御网络/应用的DDOS攻击还是传统方法,即引流/WAF,虽然能从这些数据中学习到攻击数据的特征,但一旦错误地丢弃一个网络数据包就可能造成用户的投诉,而且可能你还没有学习完,攻击已经结束、服务已经停止,所以我们的着眼点还是在于机器学习在可信这个环节上。


本文出自 “13335387” 博客,谢绝转载!

大数据、机器学习与信息安全

标签:机器学习 信息安全

原文地址:http://13345387.blog.51cto.com/13335387/1967695

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!