Hadoop的改进实验（中文分词词频统计及英文词频统计）博文目录结构

时间：2014-06-07 02:55:09 阅读：178 评论：0 收藏：0 [点我收藏+]

声明：

　　1）本文由我bitpeach原创撰写，转载时请注明出处，侵权必究。

2）本小实验工作环境为Windows系统下的百度云（联网），和Ubuntu系统的hadoop1-2-1（自己提前配好）。如不清楚配置可看《Hadoop之词频统计小实验初步配置》

3）本文由于过长，无法一次性上传。下面是五个部分的简介：

　　　　一是简要介绍百度云；

　　　　二是作基本的英文词频统计（在百度云下）。至于Ubuntu下的基本词频统计，仍然可以看《Hadoop之词频统计小实验初步配置》；

　　　　三是改进英文词频统计，简单修改了部分代码，在此要感谢Joyce0625的《查看Hadoop-1.2.1里面的例子jar并对WordCount进行修改》。是参考了他的博文才写出来的；

　　　　四是单机Hadoop（Ubuntu）下的中文分词并作词频统计的，为什么不在百度云上作，具体原因参见博文，并深刻感激网友岁月如歌的《Hadoop中文词频统计》，没有他的博文指导我写不出来，并与他邮件请教几次，真的很感谢他！

　　　　五是由于上述都是java程序，那么想利用hadoop的python接口，即Streaming模式下用python去做英文词频统计。这个是简单试水，希望后来人继续探索！

本文抛砖引玉，感谢帮助我的人！

-----------------------------------------------------------------------------------------------------------------------

《Hadoop的改进实验（中文分词词频统计及英文词频统计）》全文有五个部分，我尝试一次性上传，总是不成功。

现发布博文，决定分成四篇。

《Hadoop的改进实验（中文分词词频统计及英文词频统计）（3/4）》，主要描述第四部分的后半部分（= =因为第四部分实在是太长，只能分隔开上传）

原文地址：http://www.cnblogs.com/bitpeach/p/3756145.html

踩

(0)

评论一句话评论（0）

分享档案

更多>

周排行

Hadoop的改进实验（中文分词词频统计及英文词频统计） 博文目录结构