标签:
1.首先学习基本的知识,文本分析。学习基本的linux命令,使用脚本对文本进行细粒度的切分,并对模型进行调研
2.分析文本文件中的特征,
3.分析文本文件中上下文之间的关系。
4.编写脚本文件,对脚本预处理,数据清洗,并产生格式化的数据
5.建立模型
6.编写map,reduce过程文件,对数据进行处理,产生结果。
思路整理
原文地址:http://www.cnblogs.com/bob-wzb/p/5544490.html