函数说明: 1. re.sub(r'[^a-zA-Z0-9\s]', repl='', sting=string) 用于进行字符串的替换,这里我们用来去除标点符号 参数说明:r'[^a-zA-Z0-9\s]' 配对的模式,^表示起始位置,\s表示终止位置,[]表示取中间部分,这个的意思是找出除字符串 ...
分类:
其他好文 时间:
2019-01-26 19:32:16
阅读次数:
1824
# CalThreeKingdoms.pyimport jieba'''安装第三方库 中文分词jieba pip install jieba统计三国演义中出现次数最多的人'''txt = open("threekingdoms.txt", "rt", encoding="utf-8").read() ...
分类:
编程语言 时间:
2019-01-26 17:57:30
阅读次数:
166
字典树 1、定义:又称单词查找树,Trie树,是一种树形结构,是一种哈希树的变种。典型应用是用于统计,排序和保存大量的字符串(但不仅限于字符串),所以经常被搜索引擎系统用于文本词频统计 2、优点:利用字符串的公共前缀来减少查询时间,最大限度地减少无谓的字符串比较,查询效率比哈希树高 3、模板: co ...
分类:
其他好文 时间:
2019-01-23 23:23:07
阅读次数:
226
一、停用词 1、含义:在语料中大量出现,但对我们分析没什么用的词,但对分析有干扰作用,需要剔除后再计算词频;比如:标点符号,量词等 2、停用词表百度搜索就有一堆了 二、TF-IDF 前言: 比如对《中国的蜜蜂养殖》进行词频统计,去掉停用词后计算词频发现“中国”、“蜜蜂“、“养殖” 三个词出现的次数一 ...
分类:
其他好文 时间:
2019-01-19 19:58:53
阅读次数:
172
1..groupby()[].agg(by={}) 2. collections.de...(lambda:1) 统计的单词是语料库中所有的词, 对Dataframe统计单词词频,同时增加一列数据count,这里我们使用reset_index,sort_values(by = ['counts], ...
分类:
其他好文 时间:
2019-01-19 00:54:53
阅读次数:
313
对于需要构成语料库的数据,我们需要去停用词 停用词包括 1. 语料中大量出现的 如 1.!, 2.", 3.#, 4.$, 5.% 2. 没啥大用 1.一下 2.一些 3.一项 4.一则 关键词提取 TF-IDF 比如有3个词:中国,蜜蜂,养殖 TF(词频):表示的是蜜蜂在这个文章里出现的次数,即词 ...
分类:
其他好文 时间:
2019-01-19 00:46:51
阅读次数:
265
问题 如果我们看到用户输入一个不在字典中的词,我们需要推测他实际想要输入的词 使用贝叶斯公式表示: p(实际想要输入词|用户输入) = p(实际想要输入词) * p(用户输入|实际想要输入词) / p(用户输入) p(实际输入词) 表示的是这个词在语料库中出现的词频 p(用户输入|实际想要输入) 实 ...
分类:
其他好文 时间:
2019-01-18 19:56:35
阅读次数:
424
项目分组情况:我(潘萧臣)、鲍中飞 基本功能模块,实现文章词频统计,每个人独自完成编写语言为C语言和python3.7.0,主要实现英文单词词数统计。 拓展功能,在每个人完成的基础上实现网页内容爬取操作,将爬下来的内容进行词频统计,网页爬虫方面,还未进行详细了解,自己初步打算用python中的req ...
分类:
其他好文 时间:
2019-01-08 15:14:05
阅读次数:
129
% wordcount%实现词频的统计%% 清空变量clearclc%% 初始版本的开始测试str1 = 'my name is cuifengrui what is your name';%% 具体实现过程sort_str1 = sort(str1) %将字符串中的字符按照ascii码排序j = ...
分类:
其他好文 时间:
2019-01-03 11:01:19
阅读次数:
220
[hadoop@localhost mapreduce]$ hadoop jar hadoop-mapreduce-examples-2.7.3.jar wordcount /home/hadoop/data/input/sp.txt /home/hadoop/data/output/sp_2018... ...
分类:
其他好文 时间:
2018-12-25 20:20:15
阅读次数:
218