如何把云计算大数据处理速度提高100倍以上?Spark给出了答案。Spark是可以革命Hadoop的目前唯一替代者,能够做Hadoop做的一切事情,同时速度比Hadoop快了100倍以上,下图来自Spark的官方网站:LogisticregressioninHadoopandSpark可以看出在Sp...
分类:
其他好文 时间:
2014-12-20 02:07:34
阅读次数:
361
Hadoop、Yarn、Spark是企业构建生产环境下大数据中心的关键技术,也是大数据处理的核心技术,是每个云计算大数据工程师必修课。大数据时代的精髓技术在于Hadoop、Yarn、Spark,是大数据时代公司和个人必须掌握和使用的核心内容。Hadoop、Yarn、Spark是Yahoo!、阿里淘宝...
分类:
其他好文 时间:
2014-12-20 02:06:55
阅读次数:
314
Hadoop、Yarn、Spark是企业构建生产环境下大数据中心的关键技术,也是大数据处理的核心技术,是每个云计算大数据工程师必修课。课程简介王家林老师(联系邮箱18610086859@126.com 电话:18610086859 QQ:1740415547 微信号:18610086859)大数据时...
分类:
其他好文 时间:
2014-12-20 02:05:27
阅读次数:
286
一:python 简介(1)Python的由来Python(英语发音:/?pa?θ?n/), 是一种面向对象、解释型计算机程序设计语言,由Guido van Rossum于1989年底发明,第一个公开发行版发行于1991年。Python语法简洁而清晰,具有丰富和强大的类库。它常被昵称为胶水语言,它能...
分类:
编程语言 时间:
2014-12-20 02:03:44
阅读次数:
292
最近买了一本《Python宝典》在看,此书所讲Python知识的广度明显,但是深度略显不足,所以比较适合入门及提高级的读者来看。其中对于Python大数据处理一章的内容比较有兴趣,看明白了以后,我根据书上提供的案例对源代码进行了修改,也实现了模拟MapReduce的过程。
目标:从Apache的用户访问日志access.log中统计出页面资源的访问量。我们假设这个文件体积十分巨大。
acc...
分类:
编程语言 时间:
2014-12-19 12:13:28
阅读次数:
235
一:python 简介
(1)Python的由来
Python(英语发音:/?pa?θ?n/), 是一种面向对象、解释型计算机程序设计语言,由Guido van Rossum于1989年底发明,第一个公开发行版发行于1991
年。Python语法简洁而清晰,具有丰富和强大的类库。它常被昵称为胶水语言,它能够把用其他语言制作的各种模块(尤其是C/C++)很轻松地联结
在一起。常见的一种应用情...
分类:
编程语言 时间:
2014-12-19 12:13:07
阅读次数:
317
一:交叉验证(crossvalidation)(附实验的三种方法)方法简介
(1) 定义:交叉验证(Cross-validation)主要用于建模应用中,例如PCR(Principal Component Regression) 、PLS(Partial
least squares regression)回归建模中。在给定的建模样本中,拿出大部分样本进行建模型,留小部分样本用刚建立的...
分类:
其他好文 时间:
2014-12-18 11:59:28
阅读次数:
175
(1)做大数据处理,清洗数据结束后,就是现象分析,再建立Model模型,在验证自己模型的有效性
(2)大数据试验验证模型有效性的指标:
Accuracy(正确率);Precision(查准率或准确率);Recall(查全率或召回率);F1-Measure
True Positives, True Negatives, False Positives, False Negatives 下面分别...
分类:
其他好文 时间:
2014-12-17 18:33:57
阅读次数:
277
一:起因
(0)开始个人非常抵触MATLAB编程语言的,肯能是部分编程人员的通病 —— 学会c/c++或者java,就会鄙视其他的语言,懒得尝试其他语言。直到有一天……他发现,他或者她发现自己精通的这门语言实在是解决不了这个问题时,才做出改变。
(1)最近一直在处理大数据,从MB ----> GB的变化,是一次质的飞跃,相应的工具也在变 从widows到linux,从单机单核 到 ha...
分类:
其他好文 时间:
2014-12-14 20:00:37
阅读次数:
345