Spark在2013年6月进入Apache成为孵化项目,8个月后成为Apache顶级项目,速度之快足见过人之处,Spark以其先进的设计理念,迅速成为社区的热门项目,围绕着Spark推出了Spark SQL、Spark Streaming、MLLib和GraphX等组件,也就是BDAS(伯克利数据分析栈),这些组件逐渐形成大数据处理一站式解决平台。...
分类:
其他好文 时间:
2015-08-05 12:55:28
阅读次数:
250
简介awk是一个强大的文本分析工具,相对于grep的查找,sed的编辑,awk在其对数据分析并生成报告时,显得尤为强大。简单来说awk就是把文件逐行的读入,以空格为默认分隔符将每行切片,切开的部分再进行各种分析处理。awk有3个不同版本: awk、nawk和gawk,未作特别说明,一般指gawk,g...
分类:
系统相关 时间:
2015-08-05 10:23:54
阅读次数:
145
本文针对统计学学习之离散章节,本科针对离散数学以及概率论学习期间,总是一味觉得软件开发与数学有何联系,根本学其无用。然而走进数据分析,大数据处理才发现其重要性。如何计算和利用概率分布,采用概率树不免增加了计算的复杂度,有没有更好的计算方法?本篇我们介绍一些特殊的概率分布,这些概率分布具有固定的形式,...
分类:
其他好文 时间:
2015-08-04 14:57:53
阅读次数:
348
?一、TraceView 简介 TraceView 是 Android 平台特有的数据采集和分析工具,它主要用于分析 Android 中应用程序的 hotspot。TraceView 本身只是一个数据分析工具,而数据的采集则需要使用 Android SDK 中的 Debu...
分类:
移动开发 时间:
2015-08-02 15:21:51
阅读次数:
335
利用KNIMI做商超零售关联推荐,使用真实数据,进行关联推荐分析...
分类:
其他好文 时间:
2015-08-01 08:50:33
阅读次数:
124
1、典型的数据分析过程可以总结为一下图形: 注意,在模型建立和验证的过程中,可能需要重新进行数据清理和模型建立。 2、R语言一般用 也可以。 3、 age <- c(1,3,5,2,11,9,3,9,12,3) weight <- c(4.4,5.3,7.2,5.2,8.5,7.3,6.0,10.4...
分类:
编程语言 时间:
2015-07-31 21:36:55
阅读次数:
209
本人最近在某咨询公司实习,涉及到了一些数据分析的工作,用的是R语言来处理数据。但是在应用的过程中,发现用R很不熟练,所以再打算学一遍R。曾经花一个月的时间看过一遍《R语言编程艺术》,还用R做过阿里的推荐算法比赛,对R语言有一些最初级、基本的了解。不过 ,上面那本书虽然挺好,但是不适合速成,是从程序员...
分类:
编程语言 时间:
2015-07-31 20:00:19
阅读次数:
130
数据量大带来的问题就是单个文件很大,能够打开这个文件相当不容易,记事本就不要指望了,果断死机去年年底的各种网站帐号信息的数据库泄漏,很是给力啊,趁机也下载了几个数据库,准备学学数据分析家来分析一下这些帐号信息。虽然这些数据信息都已经被“整理”过的,不过自己拿来学习也挺有用的,毕竟有这么大的数据量。 ...
分类:
Web程序 时间:
2015-07-31 17:46:38
阅读次数:
136