大数据、机器学习与信息安全

时间：2017-09-22 12:00:56 阅读：100 评论：0 收藏：0 [点我收藏+]

从机器学习的角度来看，大数据不过是训练各类参数、概率分布模型的输入。合适的、经过筛选的、符合事物客观特征描述的大数据方才是好的数据，故在目前这个所谓“泛大数据时代”，数据确实是最为精贵的资源，但并不是所有数据都是，我们只能去芜存菁方可认清数据的本质以及事物（包括人类自身）的本质。因此对于数据的处理反而变成了最最重要的问题。

从经典定义来看，机器学习对于特性输出的提高，其最重要关键点不在算法（当然，好的算法也是非常重要的基础，是成功的必要条件，是减少开销、尽量少的消耗资源的核心）而是在于是否占有更大、更好的数据，从而训练出更为出色的模型，其输出主要是各类参数，至少在“弱人工智能时代”，其价值也是在于这些参数。因为人工智能的定义更为宽泛，它包含一些不多的、不主要依赖于数据学习的方法，AI这个大概念不是我们讨论的要点。以神经网络为例，定理告诉我们对于任何连续函数，可以以任意精度去逼近，先决条件是隐层的神经元越多越好。

对于机器学习而言，最重要目标是对客观数据进行分类，其它任务已经变得不太重要了。无论我们谈到的支持向量机、神经网络、聚类等等无不是基本围绕分类这个主题进行的！

以我的观点来看，信息安全本质是提供可信、可靠的服务和数据（注意，这个定义的修饰词不仅仅是可信，还有可靠，存在一定区别，因为我们不能忽视DOS/DDOS攻击，这会造成服务的不可靠而不是不可信，这个观点与吴瀚清略有所区别）。但目前我们可能还是无法直接运用机器学习的方法来规避DDOS攻击，因为无论在网络层还是应用层，抵御网络/应用的DDOS攻击还是传统方法，即引流/WAF，虽然能从这些数据中学习到攻击数据的特征，但一旦错误地丢弃一个网络数据包就可能造成用户的投诉，而且可能你还没有学习完，攻击已经结束、服务已经停止，所以我们的着眼点还是在于机器学习在可信这个环节上。

本文出自 “13335387” 博客，谢绝转载！

大数据、机器学习与信息安全

标签：机器学习信息安全

原文地址：http://13345387.blog.51cto.com/13335387/1967695

踩

(0)

评论一句话评论（0）

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)

周排行