码迷,mamicode.com
首页 > 其他好文 > 详细

大数据之我见

时间:2015-01-11 12:24:07      阅读:201      评论:0      收藏:0      [点我收藏+]

标签:大数据

现在大数据是个热词(buzzword),我也凑个热闹。现在前面不加个“大”字都不好意思说数据,大确实是大数据的特点之一。以前也有数据,为什么最近变大了呢?信息技术的发展,硬件的发展,网络技术的发展使海量数据的获取、存储、处理变得容易,所以数据变大了。”大“只是现在数据的一个特点,有mapreduce, hadoop, spark等工具来应对数据的大。 言必称hadoop等工具的人不见得真的懂数据分析,毕竟大数据之前我们也做数据分析,当时我们用采样的方法(Sample)。


数据分析需要三个方面的知识,IT技能、数学和领域知识。 IT技能包括前面提到的hadoop,mapreduce等新工具的使用,还包括数据库、SQL等旧工具的使用,相对来说我认为不是最关键的技术。数学方面知识包括概率论数理统计、线性代数等数学分支,这些反而是我认为相对更重要的,一个数据科学家可以不会用hadoop,mapreduce等工具,但这些数学知识必知必会。做数据分析,数据不是最重要的,我们想由数据回答什么问题更重要。领域知识是用来提这些问题的。分析电子商务的商品数据,分析生物信息学的蛋白质和基因,分析行为经济学,需要不同的领域知识。所以说大数据分析团队需要具备这三个方面能力的成员。


数据分析有描述(Descriptive Statistics),推论(Statistics Inference),应用等几个层面。描述相对简单,推论、预测和应用起来就难了。所以说宣称自己是大数据专家的人,还要看他处于哪个层面。 

我觉得下面三句话对从事数据分析的人会很有用。

(1)相关不代表因果。

(2)洞察力比工具重要。

(3)问题比数据重要。


我看了微信公众号CSDN大数据、数据客、亲密数(qinmishu.org)上的几篇文章,还有霍普金斯大学关于数据科学的一门介绍性的公开课,归纳出上面的观点,自己对数据分析还是门外汉,目的是给自己绘个大的蓝图,而不是一开始就纠结到具体的工具上去。




 



大数据之我见

标签:大数据

原文地址:http://blog.csdn.net/xuhx/article/details/42609537

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!