[hadoop@localhost mapreduce]$ hadoop jar hadoop-mapreduce-examples-2.7.3.jar wordcount /home/hadoop/data/input/sp.txt /home/hadoop/data/output/sp_2018... ...
分类:
其他好文 时间:
2018-12-25 20:20:15
阅读次数:
218
#python版本3.7 import re, collections #将语料库里的单词全部转换为小写def words(text): return re.findall('[a-z]+', text.lower()) #词频统计def train(features): model = colle ...
分类:
其他好文 时间:
2018-12-20 22:14:53
阅读次数:
227
#include<iostream> #include<cstdio> #include<cmath> #include<cstdlib> #include<cstring> #include<algorithm> #include<vector> using namespace std; #def ...
分类:
其他好文 时间:
2018-12-20 19:02:14
阅读次数:
110
恢复内容开始 驾驶员:葛晨延(16012010) 领航员:张广哲(16012007) 码云:https://gitee.com/happywindmannn/GCYshixun1/tree/master 实训过程照片: 运行结果: 需求: 1.读取文件,文件内包可含英文字符,及常见标点,空格级换行符 ...
分类:
编程语言 时间:
2018-12-13 20:21:33
阅读次数:
223
对文件进行词频统计,是一个大数据领域的hello word级别的应用,来看下实现有多简单: 1 Linux单机处理 egrep -o "\b[[:alpha:]]+\b" test_word.log|sort|uniq -c|sort -rn|head -10 2 Spark分布式处理(Scala) ...
分类:
其他好文 时间:
2018-12-13 19:30:31
阅读次数:
132
1.码云地址:https://gitee.com/bhma/first_training/tree/master 小组成员: 16012115 白惠民(领航员) 16012122 齐洪飞(驾驶员) 2.我们编程时候的图片: 3.我们选择的是第二道题: 2.词频统计(引自东北师范大学杨贵福老师) 老五 ...
分类:
其他好文 时间:
2018-12-13 16:26:07
阅读次数:
296
领航员:周楷柠 (学号:16012005) 驾驶员:陈炳全 (学号:16012022) 码云地址:https://gitee.com/xywymxs/05zkn-22cbq-1 实训项目过程照片: 解题思路: 首先,词频统计是一个综合性较强、知识涉及较广的实训项目,我们首先将它模块化,一块一块的进行 ...
分类:
编程语言 时间:
2018-12-12 00:22:02
阅读次数:
186
三、 垃圾邮件分类 数据准备: 用csv读取邮件数据,分解出邮件类别及邮件内容。 对邮件内容进行预处理:去掉长度小于3的词,去掉没有语义的词等 尝试使用nltk库: pip install nltk nltk.download 不成功:就使用词频统计的处理方法 训练集和测试集数据划分 from sk... ...
分类:
其他好文 时间:
2018-11-29 15:16:44
阅读次数:
218
大纲: Spark Streaming简介 Spark Streaming的原理和架构 Spark Streaming之基础抽象DStream DStream相关操作 Spark Streaming与flume整合 Spark Streaming与kafka整合 Spark Streaming简介 ...
分类:
其他好文 时间:
2018-11-25 01:21:06
阅读次数:
230