前言:首先有这样一个需求,需要统计一篇10000字的文章,需要统计里面哪些词出现的频率比较高,这里面比较重要的是如何对文章中的一段话进行分词,例如“北京是×××的首都”,“北京”,“×××”,“中华”,“华人”,“人民”,“共和国”,“首都”这些是一个词,需要切分出来,而“京是”“民共”这些就不是有 ...
分类:
编程语言 时间:
2019-08-06 17:02:55
阅读次数:
112
1 # Author :Zcb 2 3 #中文词频统计 4 import jieba 5 import sys 6 7 f = open("d:/政府工作报告.txt",'r') 8 txt = f.read() 9 f.close() 10 11 d={} 12 ls=jieba.lcut(txt... ...
分类:
其他好文 时间:
2019-07-28 15:31:39
阅读次数:
117
1.列表,元组,字典,集合分别如何增删改查及遍历。 列表: 对列表的数据项进行修改或更新,你也可以使用append()方法来添加列表项;可以使用 del 语句来删除列表的的元素; 元组: 元组可以使用下标索引来访问元组中的值;元组中的元素值是不允许修改的,但我们可以对元组进行连接组合;元组中的元素值 ...
分类:
其他好文 时间:
2019-06-19 20:07:32
阅读次数:
104
中文词频统计 1. 下载一长篇中文小说。 2. 从文件读取待分析文本。 3. 安装并使用jieba进行中文分词。 pip install jieba import jieba ljieba.lcut(text) 4. 更新词库,加入所分析对象的专业词汇。 jieba.add_word('天罡北斗阵' ...
分类:
其他好文 时间:
2019-06-19 19:58:28
阅读次数:
129
1.在本地安装jdk环境和scala环境 2.读取本地文件: 3.词频topN计算 ...
分类:
其他好文 时间:
2019-06-09 00:22:34
阅读次数:
137
词频统计 参考: 对参考的代码进行了一些补充和修改,大体思路没变 并不是想说这题多难,只是在这题可以用STL的很多结构帮助解题,所以能让代码变得很简单 题目 7 1 词频统计 (30 分) 请编写程序,对一段英文文本,统计其中所有不同单词的个数,以及词频最大的前10%的单词。 所谓“单词”,是指由不 ...
分类:
其他好文 时间:
2019-06-08 23:04:29
阅读次数:
725
创建一个文件夹 bin/hdfs dfs -mkdir /input 将要统计的文件上传到hadoopbin/hadoop fs -put /test.txt /input 利用hadoop进行词频统计bin/hadoop jar share/hadoop/tools/lib/Hadoop-stre ...
分类:
其他好文 时间:
2019-05-10 16:16:13
阅读次数:
101
恢复内容开始 1) 学号:2017*****1027; 姓名:王益鑫; 码云仓库地址:https://gitee.com/shirt 2580/word_frequency; 2) 程序分析 1、 打开并读取文件 【2、添加处理 bvffer代码,统计单词的频率,存放在word_freq def p ...
分类:
其他好文 时间:
2019-04-08 16:10:16
阅读次数:
178
1)博客开头给出自己的基本信息,格式建议如下 - 学号:2017035101501 - 姓名:韩佳琦 -我的码云仓库:https://gitee.com/hanjiaqi/word_frequency 2) 程序分析,对程序中的四个函数做简要说明。要求附上每一段代码及对应的说明。 1.读取文件,将文 ...
分类:
其他好文 时间:
2019-04-08 15:31:33
阅读次数:
148