RHadoop实践系列之二:RHadoop安装与使用RHadoop实践系列文章,包含了R语言与Hadoop结合进行海量数据分析。Hadoop主要用来存储海量数据,R语言完成MapReduce 算法,用来替代Java的MapReduce实现。有了RHadoop可以让广大的R语言爱好者,有更强大的工具处...
分类:
其他好文 时间:
2015-05-26 18:04:20
阅读次数:
126
以前有个学科叫数据挖掘,用于对规律不明确的数据做分析,聚类正是这门学科的基础。我们普通人对一组数据做分析的时候,往往会大概的对数据画个范围,比如统计1-50,50-100,100-200分别有多少记录之类,而聚类则是用于替代人手工做这个工作。比如有一组数据,聚类则可以通过算法分析出这组数据的分段和每...
分类:
其他好文 时间:
2015-05-26 01:34:01
阅读次数:
163
假设检验及R实现7.1假设检验概述对总体参数的具体数值所作的陈述,称为假设;再利用样本信息判断假设足否成立,这整个过程称为假设检验。7.1.1理论依据假设检验之所以可行,其理沦背景是小概率理论。小概率事件在一次试验中儿乎是不可能发生的,但是它一以发生,我们就有理由拒绝原假设:反之,小概率事件没有发生...
分类:
编程语言 时间:
2015-05-26 00:00:25
阅读次数:
490
app运营:如何制定消息推送策略?今天,在队内,我做了一次关于app消息推送策略设计的分享,在这里整理出来,也算一个知识梳理过程,供各位批评指正。很多app设计者总是很贪婪,想要攫取用户的眼球,于是就不停地通知,还有一些app本身很nice,却因为那些没完没了的通知变得让人..
分类:
移动开发 时间:
2015-05-25 20:38:33
阅读次数:
168
诸葛认为,作为一枚APP运营人员要知道如何从产品设计到用户突破百万,在不同的产品阶段,我们都要做哪些事情呢?1、产品研发期——产品上线前首先产品运营要搞清楚产品的定位以及目标用户。产品定位和目标用户决定了产品要解决什么问题、产品的风格,同时会影响后续产品运营的..
分类:
移动开发 时间:
2015-05-25 20:37:24
阅读次数:
172
如果是没有运营资源,我们可以想办法。是去向公司申请更多支持,还是拓展新资源。如果是不想投入运营资源,觉得不需要运营,期望通过零运营的方式获得产品成功,基本是不可能的。首先来梳理一下运营资源包括哪些?诸葛认为分内部外部两部分,内部就是钱和人,外部包括一切可利..
分类:
其他好文 时间:
2015-05-25 20:36:44
阅读次数:
176
网上投票系统N(need)投票这件事情,在所有事情上都可能用得到,在互联网的影响下,投票的范围变得越来越广,比如在商业的里,往往要做市场分析,那么在互联网这个大的前提下,用网上投票系统来获取用户的选择,再加以大数据分析,那么这样的投票数据将至关重要。A(approach)针对企业和个人的对投票分析的...
分类:
其他好文 时间:
2015-05-25 19:58:26
阅读次数:
291
由于自己在日常的工作中需要使用到python语言,主要是做数据分析和机器学习算法的实现,因此开始学习python这门语言。根据网友和豆瓣评论,自己选择使用了教材《python简明教程》、《python基础教程》、《利用python进行数据分析》。第一本主要是做入门使用,第二本是系统学习python语...
分类:
编程语言 时间:
2015-05-25 08:33:42
阅读次数:
175
6.3两正态总体的区间估计(1)两个总体的方差已知在R中编写计算置信区间的函数twosample.ci()如下,输入参数为样本x, y,置信度α和两个样本的标准差。> twosample.ci=function(x,y,alpha,sigma1,sigma2){+ n1=length(x);n2.....
分类:
编程语言 时间:
2015-05-23 23:52:49
阅读次数:
362
背景Apache Zeppelin提供了web版的类似ipython的notebook,用于做数据分析和可视化。背后可以接入不同的数据处理引擎,包括spark, hive, tajo等,原生支持scala, java, shell, markdown等。它的整体展现和使用形式和Databricks Cloud是一样的,就是来自于当时的demo。Mac OS上安装目前github上,zeppelin版...
分类:
Web程序 时间:
2015-05-23 16:57:28
阅读次数:
703