Zeppelin是一个Apache的孵化项目,一个多用途笔记本。(类似于ipython notebook,可以直接在浏览器中写代码、笔记并共享)
可实现你所需要的:
- 数据采集
- 数据发现
- 数据分析
- 数据可视化和协作支持多种语言,默认是scala(背后是spark shell),SparkSQL, Markdown 和 Shell。
甚至可以添加自己的语言支持。如何写一个...
分类:
Web程序 时间:
2015-04-01 13:23:03
阅读次数:
329
背景:实验室大数据分析需要得到社交网站的数据,首选当然是新浪。数据包括指定关键词、话题、位置的微博的内容。字段包括:图片、时间、用户、位置信息。思路分析:要爬新浪的数据主要有2种方法: 1.微博开发者平台提供的微博API,资源包括微博内容、评论、用户、关系、话题等信息。同时,你也可以申请高级接口、....
分类:
其他好文 时间:
2015-04-01 10:53:59
阅读次数:
268
一、是什么?
SSAS是用于SQLServer数据库用于BI的组件,通过SSAS可以创建多维数据库,并在之上进行数据挖掘操作。本文我们主要介绍一些关于SSAS数据分析的知识。接下来就让我们来一起了解一下吧。
商业智能提供的解决方案能够从多种数据源获取数据并且能够把各种数据转化成同一格式数据进行存储,最终达到让用户可以快速访问解读数据,为用户分析和制定决定...
分类:
其他好文 时间:
2015-03-31 22:18:47
阅读次数:
136
开博第三篇依旧回顾下数据分析涉及到的统计学中最基本的概念,包含了以下几个概念:标准差,标准误。10 标准差在概率论和数理统计中,标准差(Standard Deviation,符号\(\sigma\))是方差的算术平方根。标准差定义是总体各单位标准值与其平均数离差平方的算术平均数的平方根。它反映组内个...
分类:
其他好文 时间:
2015-03-30 23:03:39
阅读次数:
252
通过《Linux网络编程——原始套接字编程》得知,我们可以通过原始套接字以及 recvfrom( ) 可以获取链路层的数据包,那我们接收的链路层数据包到底长什么样的呢?
MAC 头部...
分类:
系统相关 时间:
2015-03-30 21:13:46
阅读次数:
279
开博第二篇依旧回顾下数据分析涉及到的统计学中最基本的概念,包含了以下几个概念:期望,方差,标准差,离差,残差,协方差。0 离散性随机变量,连续性随机变量随机变量(random variable)表示随机试验各种结果的实值单值函数。例如某一时间内公共汽车站等车乘客人数,每次投掷骰子出现的点数等,都是随...
分类:
其他好文 时间:
2015-03-30 21:06:49
阅读次数:
1823
简介awk是一个强大的文本分析工具,相对于grep的查找,sed的编辑,awk在其对数据分析并生成报告时,显得尤为强大。简单来说awk就是把文件逐行的读入,以空格为默认分隔符将每行切片,切开的部分再进行各种分析处理。awk有3个不同版本: awk、nawk和gawk,未作特别说明,一般指gawk,g...
分类:
其他好文 时间:
2015-03-30 17:51:53
阅读次数:
94
国内的APP行业始于2010年,其后,伴随着智能手机逐渐占领中国手机消费市场地节奏,海量APP开始渗透到人们衣食住行的方方面面,发展到今天,App Store中的应用数更是以百万计。前段时间,国外一家知名移动数据分析公司发布了多份关于APP的发展趋势报告,这些报告无不显示出APP对各行各业所产生的影响,这其中,我国更是凭借着基数庞大的用户群,问鼎APP增长最快的国家。
说实话,即使不...
分类:
移动开发 时间:
2015-03-28 15:50:02
阅读次数:
168