五、搭建Hadoop集群上面的步骤,确认了单机可以执行Hadoop的伪分布执行,真正的分布式执行无非也就是多几台slave机器而已,配置方面的有一点点区别,配置起来就非常简单了。1、准备三台服务器192.168.56.101192.168.56.102192.168.56.103在每台机器的/etc/hosts中都将ip及hostname给映射上:192.168.56.101 nginx1192...
分类:
其他好文 时间:
2014-06-16 23:18:41
阅读次数:
499
实战:自定义脚本关闭mysql-mysql 5.6.19...
分类:
数据库 时间:
2014-06-16 23:02:20
阅读次数:
275
实战:自定义脚本启动mysql-mysql 5.6.19...
分类:
数据库 时间:
2014-06-16 23:01:17
阅读次数:
233
前言Hadoop从存储上来说,是类似于冗余磁盘阵列(RAID)的存储方式,将数据分散存储并提供以提供吞吐量,它的存储系统就是HDFS(Hadoop Distuibute Fils System);从计算上来说,它通过MapReduce模型,将大数据的计算分发到多台计算机上完成,再将结果合并,减少计算的时间。Hadoop适合于:1、超大数据的计算;2、一次写入、多次读取的模式;3、可以跑在普通的硬件...
分类:
其他好文 时间:
2014-06-16 22:58:13
阅读次数:
250
K-均值聚类算法的MapReduce实现理解...
分类:
其他好文 时间:
2014-06-16 22:04:50
阅读次数:
207
三、配置Hadoop1、设置$HADOOP_HOME/conf/hadoop-env.sh这个文件中设置的是Hadoop运行时需要的环境变量,在1.2.1版中共有19个环境变量,如下: 变量名称默认值说明JAVA_HOME 设置JDK的路径,这个必须设置,否则Hadoop无法启动,值如:/usr/local/jdk1.6.0_33HADOOP_CLASSPATH空这个用以设置用户的类路径,也可以在...
分类:
其他好文 时间:
2014-06-16 19:59:35
阅读次数:
380
根据工作环境,自定义一个mysql关闭脚本---1.保存为/usr/local/mysql/scripts/mysql_env.ini#setmysqlinitvariablesMYSQL_USER=system
#mysql的用户名MYSQL_PASS=‘password‘#mysql的登录用户密码#checkinputparameterornoif[$#-ne1];then
#判断输入的参数个数echo"mysqlportis
3..
分类:
数据库 时间:
2014-06-16 17:48:07
阅读次数:
238
1. Impala架构
Impala是Cloudera在受到Google的Dremel启发下开发的实时交互SQL大数据查询工具,Impala没有再使用缓慢的Hive+MapReduce批处理,而是通过使用与商用并行关系数据库中类似的分布式查询引擎(由Query Planner、Query Coordinator和Query Exec Engine三部分组成),可以直接从HDFS...
分类:
其他好文 时间:
2014-06-16 14:42:11
阅读次数:
251
(转载请注明出处:http://blog.csdn.net/buptgshengod)1.背景 这是博主第一次大数据实战的经历,之前都是自己写一些算法然后测试很小的数量级。这次是真正接触到TB集的数据,而且完全是在云端处理。下面就把这次的经历简单分享一下。首先简单介绍一下这次比赛的环境吧:1.云:采用的是阿里云2.数据:从四月十五号到八月十五号期间,用户两千多万的购买行为(包括时间,购买、收...
分类:
其他好文 时间:
2014-06-16 14:21:39
阅读次数:
351
"数据去重"主要是为了掌握和利用并行化思想来对数据进行有意义的筛选。统计大数据集上的数据种类个数、从网站日志中计算访问地等这些看似庞杂的任务都会涉及数据去重。下面就进入这个实例的MapReduce程序设计。1.1 实例描述 对数据文件中的数据进行去重。数据文件中的每行都是一个数据。 样例输入如下.....
分类:
其他好文 时间:
2014-06-16 13:22:07
阅读次数:
309