三个你在书中无法学到的数据分析知识！

时间：2016-08-17 15:25:13 阅读：157 评论：0 收藏：0 [点我收藏+]

标签：

在大数据特别热门的今天，出现了各种培训课程。但我发现这些课程的重点都放在算法的学习上。如何理解逻辑回归或深度学习很重要，但你一旦开始处理数据，你会发现还有其他的东西更为重要。

那么对于数据分析，什么才是正确的呢？关键就是你要保证你做的模型对于未来的数据也能有好的表现。所以我在这里教你三个书本不能教给你的知识。

一、对模型的有正确的认识是关键

数据分析、机器学习或是数据科学的主要目的，就是建立一个能预测未来数据的系统。在普通情况中，你很难发现监督学习和无监督学习之前的区别，你通常会使用你构建和设计的方法去搜集一些数据，但最终你希望你设计的模型可以应用到未来的数据，并且确保该模型行之有效，可以同你对原始数据的测验结果相同。

初学者经常会犯的一个错误就是，只看到了已有数据的表现，就认为这对未来数据是适用的。很不幸的是事实通常不是这样。例如在一个监督学习的案例中，任务是根据你的输入输出的行为来预测，例如把电子邮件分为垃圾邮件和非垃圾邮件。

如果你只考虑训练数据，那么对机器来说很容易返回完美的预测结果，只是通过死记硬背就可以。机器因为其容量大，可以存储和检索大量的数据，但这导致过度拟合，缺乏概括。

所以适当的评估方式是通过分割数据，分析一个部分，然后预测其他部分来模拟未来的结果。通常，训练部分是庞大的，过程也要重复数次，以获得几个数字来看看什么才是合适的方法，这个过程称为交叉验证。

每当出现这种情况，你就会得到过于乐观的数字，你的方法将无法在未来真正的数据中很好地工作。在最坏的情况下，当你终于说服别人来使用你的方法时这个方法并不能达到预期效果。所以学习如何正确评估是关键！

二、一切都在于特征提取

学习到一种新的方法是令人兴奋的，但事实是，大部分最复杂的方法执行起来基本是相同的，而真正的区别是在通过学习把原始数据的特征提取出来。

换句话说，你可以通过合适的特征来大量减少数据所需的量。假设说你减少了所有要预测的函数的特征，还有什么东西需要学习，对不对？那是多么强大的特征提取！

这意味着两件事。首先，你需要确保你掌握了这些方法中的一个，而且要坚持下去。所以你真的不需要逻辑回归和线性向量机都学习，只学习其中一个就行。这也包括你需要理解哪些方法是类似的，这其中的关键点在于底层的模型。所以深度学习是不一样的，但线性模型在表现上来看是差不多的，尽管这些方法有些不同，但是在大多数的案例中都可以得到类似的预测结果。

第二点，你需要学习所有关于这个行业的特征。不幸的是这是一门艺术，而且几乎没有任何教科书可以提供，因为只有很少的理论。正常化有一个很长的道路，有时特征需要提前对数。每当你可以消除一些自由度，你就可以显著地减少你所需要训练的数据量。

教科书往往只提供一些看起来很强大的方法，你需要用数据测试一下就能得出结果，这也可能是从理论观点和数据源来说是对的，但是在现实中，数据和我们的时间是有限的，所以寻找大信息量的特点是非常有必要的。

三、选型大多数是看周期，而不是数据集的大小

你不想在大数据时代过多的表达自己的观点，但是大多数数据会完美的融入你的主内存。你的方法可能不会在跑数据上花费很长时间，但是你会花很多时间从原始数据中提取出特征，进行交叉验证。为你的学习方法比较不同特征提取管道和参数。

最后有很多数据并不意味着你需要所有的数据，问题是有关于潜在学习问题的复杂性。如果这个问题可以用一个简单的模型解决，你就不需要用那么多的数据来推断模型的参数。这种情况下，采用数据的随机子集可能会有很大的帮助。

总之，知道如何正确的评价可以帮助你减少一个方法不能应用与未来数据的风险。获取正确的特征提取可能是最有效的方法来获得最好的结果。最后。并不总是大数据，分布式计算也可以帮助你。

更多最新关于数据分析理念及发展前景，欢迎访问西线学院官网——http://www.sizacollege.com

三个你在书中无法学到的数据分析知识！

标签：

原文地址：http://www.cnblogs.com/siza/p/5779987.html

踩

(0)

评论一句话评论（0）

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)

周排行