1、复制linux下已配置安装好的hadoop目录进入windows, 同时修改hadoo-env.sh文件的JAVA_HOME为windows下的jdk目录。2、复制hadoop-eclipse-1.2.jar插件进入myeclipse文件夹下dropins下 下载:我的文件下有一个以hado.....
Hadoop Pipes Exception: Illegal text protocol command对于Hadoop pipes 出现这样的错误,基本上编译代码依赖的.so和.a 版本不匹配网上也没有给出更多信息,我的同事最近回复了解决办法,可以参考https://groups.google....
分类:
其他好文 时间:
2014-06-15 14:37:31
阅读次数:
243
推荐系统,主要采用对历史数据的分析计算,得到某种模型,对未来的数据进行预测。说到底,还是分类问题。
Mahout,是一个可扩展的机器学习库,可用于单机,也可用于Hadoop。
Mahout的API非常简单,实现一个推荐功能只需要如下的几行代码:
DataModel model = new FileDataModel(new File(file));//建立数据模型
UserSimil...
分类:
其他好文 时间:
2014-06-15 12:35:30
阅读次数:
193
【甘道夫】Hadoop2.2.0 NN HA详细配置+Client透明性试验【完整版】...
分类:
其他好文 时间:
2014-06-15 12:30:52
阅读次数:
296
1、新建MR工程 2、设置工程名字 3、finish 4、使用navicate浏览,使用package太长了。 5、将hadoop例子下的WordCount复制过来,当然我自己打的,重新熟悉一下。 改改包名即可。 一个示例完成。6、linux下准备数据文件 >hadoop dfs -m...
分类:
其他好文 时间:
2014-06-15 10:51:31
阅读次数:
293
一、项目要求
本文讨论的日志处理方法中的日志,仅指Web日志。其实并没有精确的定义,可能包括但不限于各种前端Web服务器——apache、lighttpd、nginx、tomcat等产生的用户访问日志,以及各种Web应用程序自己输出的日志。
二、需求分析: KPI指标设计
PV(PageView): 页面访问量统计
IP: 页面独立IP的访问量统计
...
分类:
其他好文 时间:
2014-06-15 10:25:49
阅读次数:
395
localhost:50030/jobtracker.jsplocalhost:50060/tasktracker.jsplocalhost:50070/dfshealth.jsp1. NameNode进程 NameNode节点进程 – 运行在端口9000上INFO org.apache.hadoo...
分类:
其他好文 时间:
2014-06-14 15:11:04
阅读次数:
350
在CentOS系统中,修改主机名称的步骤如下:
1. 修改network文件
编辑network文件,配置如下:
vi /etc/sysconfig/network
配置
NETWORKING=yes
HOSTNAME=Hadoop-cluster
2 加载配置hostname Hadoop-cluster
hostname...
分类:
其他好文 时间:
2014-06-14 12:19:44
阅读次数:
181
Apache Spark?is a fast and general engine for large-scale data processing: 一种快速通用可扩展的数据分析引擎。如果想要搞清楚Spark是什么,那么我们需要知道它解决了什么问题,还有是怎么解决这些问题的。
本文将带领你进入Spark的世界,首先阐述了为什么Spark能够在众多的大数据分析平台中脱颖而出:通用,易用,高性能和与Hadoop的有效整合。Spark All in One的解决方案使用一个通用栈解决了流式,交互式,实时查询,迭代...
分类:
其他好文 时间:
2014-06-14 11:57:03
阅读次数:
288