主要分享了Coursera 机器学习相关课程材料,包括练习题与我的Matlab解答。 课程涉及技术:梯度下降、线性回归、监督/非监督学习、分类/逻辑回归、正则化、神经网络、梯度检验/数值计算、模型选择/诊断、学习曲线、评估度量、SVM、K-Means聚类、PCA、Map Reduce & Data ...
分类:
系统相关 时间:
2015-07-11 06:41:10
阅读次数:
442
前言以前我们启动一个Map/Reduce,经常是利用hadoopjar./xxx.jaryyy.KKinputoutput的方式在SHELL脚本或者命令行直接提交作业。但是最近涉及到的一个项目,需要根据配置动态的启动MR作业,也就是涉及到向MAP,REDUCE处理类传递参数的问题。传递参数的方式最常见的方式:Configurat..
分类:
其他好文 时间:
2015-07-10 16:53:55
阅读次数:
167
将字符串转化为数字的python实现
将字符串转化为数字的python实现,例如将字符串“1234567.8”转化为 1234567.8
这也是学习python中的一个简单的练习题...
分类:
编程语言 时间:
2015-07-09 21:33:26
阅读次数:
369
Hadoop平台搭建有三种模式,分别是单机模式、伪分布模式、完全分布模式。单机模式是在单一计算机或者服务器上运行Hadoop,没有分布式的文件上传和任务分配等功能。它执行的流程仍然是Map/Reduce,但是是文件和程序都在本机上,可以看成只有一个节点的Hadoop平台。伪分布模式也是单一计算机.....
分类:
系统相关 时间:
2015-07-08 12:25:53
阅读次数:
173
Hadoop:
Hadoop在使用原理上基本上遵照了Map、Reduce这样的一种模式进行项目的实际开发与交互,将一个个任务分解成映射与合并两种方式,然而通过映射进行分类与简化,从而产生部分归并结果,然后对同类结果进行归并计算;
由于Hadoop的中间结果需要依托于hdfs,从而需要经历硬盘及网络io的过程所以在实时性方面表现稍差;
Hadoop主要处理hdfs上的文本文件,而文本文件内容本...
分类:
其他好文 时间:
2015-07-07 19:27:46
阅读次数:
294
Hadoop是用作处理大数据用的,核心是HDFS、Map/Reduce。虽然目前工作中不需要使用这个,但是,技多不压身,经过虚拟机很多遍的尝试,终于将Hadoop2.5.2的环境顺利搭建起来了。 ? ? ? ?首先准备一...
分类:
其他好文 时间:
2015-07-07 17:17:53
阅读次数:
114
阿里接到一个电话说练习和比赛智能二选一, 真的很伤心, 练习之前积极老龄化的权利. 要总结ODPS下一个 写map / reduce 并进行购买预测过程. 首先这里的hadoop输入输出都是表的形式, 我们须要一张输入表和一张输出表. 输入表为 提供的 t_alibaba_bigdata_use.....
分类:
其他好文 时间:
2015-07-05 13:44:51
阅读次数:
162
http://tech.uc.cn/?p=2116概述什么是SparkSpark是UC Berkeley AMP lab所开源的类Hadoop MapReduce的通用的并行计算框架,Spark基于map reduce算法实现的分布式计算,拥有Hadoop MapReduce所具有的优点;但不同于M...
分类:
其他好文 时间:
2015-07-02 17:24:03
阅读次数:
135
map-reduce入门
map-reduce其实是一种编程范式,从统计词频(wordCount)程序来讲解map-reduce的思想最容易理解。
给定一个文件,里面的内容如下,要求统计每个单词的词频。
Hello Angela
I love you Angela
How are you Angela
map(每个单词处理为一行,key,value形...
分类:
其他好文 时间:
2015-07-01 20:41:16
阅读次数:
121
HadoopHadoop概况Hadoop由Apache Software Foundation公司于2005年秋天作为Lucene的子项目Nutch的一部分正式引入。它受到最先由Google Lab开发的Map/Reduce和Google File System(GFS)的启发。Yahoo!是最主要...
分类:
其他好文 时间:
2015-06-30 12:26:50
阅读次数:
199