码迷,mamicode.com
首页 > 其他好文 > 详细

hadoop初学(一)

时间:2016-03-24 06:32:34      阅读:193      评论:0      收藏:0      [点我收藏+]

标签:

最近项目研究大数据,即开始研究hadoop,主要参考以下几篇文章:

1.微信一篇hadoop的配置文章,我用的是mac,因此是一个all in one的配置,既不是分布式,也不是伪分布式,这点需要改进和学习

2.了解hadoop的map和reduce的过程

3.运行wordcount,先是用自带的统计英文,在研究通过一个java开源类库,分词统计中文文章,但目前还不准确

 

一些命令:

bin/hadoop fs -put file/myTest*.txt hdfsInput

bin/hadoop jar ~/Coding/Java/GitProjects/chinese-word-count/target/chinese-word-count-1.0.0.jar hdfsInput hdfsOutput

 

 

分词插件IKAnalyzer简介:

http://lxw1234.com/archives/2015/07/422.htm

 

wordcount英文统计分词版(自带):

http://www.cnblogs.com/madyina/p/3708153.html

 

wordcount中文分词版:

http://www.cnblogs.com/jiejue/archive/2012/12/16/2820788.html

 

wordcount词频改进降序

http://blog.csdn.net/xw13106209/article/details/6122719

 

hadoop初学(一)

标签:

原文地址:http://www.cnblogs.com/liushanping/p/5313920.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!