码迷,mamicode.com
首页 >  
搜索关键字:词频    ( 1120个结果
机器学习入门-文本数据-构造词频词袋模型 1.re.sub(进行字符串的替换) 2.nltk.corpus.stopwords.words(获得停用词表) 3.nltk.WordPunctTokenizer(对字符串进行分词操作) 4.np.vectorize(对函数进行向量化) 5. CountVectorizer(构建词频的词袋模型)
函数说明: 1. re.sub(r'[^a-zA-Z0-9\s]', repl='', sting=string) 用于进行字符串的替换,这里我们用来去除标点符号 参数说明:r'[^a-zA-Z0-9\s]' 配对的模式,^表示起始位置,\s表示终止位置,[]表示取中间部分,这个的意思是找出除字符串 ...
分类:其他好文   时间:2019-01-26 19:32:16    阅读次数:1824
python学习 第十一个程序 汉语文本词频统计
# CalThreeKingdoms.pyimport jieba'''安装第三方库 中文分词jieba pip install jieba统计三国演义中出现次数最多的人'''txt = open("threekingdoms.txt", "rt", encoding="utf-8").read() ...
分类:编程语言   时间:2019-01-26 17:57:30    阅读次数:166
字典树模板
字典树 1、定义:又称单词查找树,Trie树,是一种树形结构,是一种哈希树的变种。典型应用是用于统计,排序和保存大量的字符串(但不仅限于字符串),所以经常被搜索引擎系统用于文本词频统计 2、优点:利用字符串的公共前缀来减少查询时间,最大限度地减少无谓的字符串比较,查询效率比哈希树高 3、模板: co ...
分类:其他好文   时间:2019-01-23 23:23:07    阅读次数:226
01 文本分析随记
一、停用词 1、含义:在语料中大量出现,但对我们分析没什么用的词,但对分析有干扰作用,需要剔除后再计算词频;比如:标点符号,量词等 2、停用词表百度搜索就有一堆了 二、TF-IDF 前言: 比如对《中国的蜜蜂养殖》进行词频统计,去掉停用词后计算词频发现“中国”、“蜜蜂“、“养殖” 三个词出现的次数一 ...
分类:其他好文   时间:2019-01-19 19:58:53    阅读次数:172
机器学习入门-贝叶斯统计语料库的词频.groupby() collections
1..groupby()[].agg(by={}) 2. collections.de...(lambda:1) 统计的单词是语料库中所有的词, 对Dataframe统计单词词频,同时增加一列数据count,这里我们使用reset_index,sort_values(by = ['counts], ...
分类:其他好文   时间:2019-01-19 00:54:53    阅读次数:313
机器学习入门-贝叶斯中文新闻分类任务
对于需要构成语料库的数据,我们需要去停用词 停用词包括 1. 语料中大量出现的 如 1.!, 2.", 3.#, 4.$, 5.% 2. 没啥大用 1.一下 2.一些 3.一项 4.一则 关键词提取 TF-IDF 比如有3个词:中国,蜜蜂,养殖 TF(词频):表示的是蜜蜂在这个文章里出现的次数,即词 ...
分类:其他好文   时间:2019-01-19 00:46:51    阅读次数:265
机器学习入门-贝叶斯拼写纠错实例
问题 如果我们看到用户输入一个不在字典中的词,我们需要推测他实际想要输入的词 使用贝叶斯公式表示: p(实际想要输入词|用户输入) = p(实际想要输入词) * p(用户输入|实际想要输入词) / p(用户输入) p(实际输入词) 表示的是这个词在语料库中出现的词频 p(用户输入|实际想要输入) 实 ...
分类:其他好文   时间:2019-01-18 19:56:35    阅读次数:424
word count项目情况
项目分组情况:我(潘萧臣)、鲍中飞 基本功能模块,实现文章词频统计,每个人独自完成编写语言为C语言和python3.7.0,主要实现英文单词词数统计。 拓展功能,在每个人完成的基础上实现网页内容爬取操作,将爬下来的内容进行词频统计,网页爬虫方面,还未进行详细了解,自己初步打算用python中的req ...
分类:其他好文   时间:2019-01-08 15:14:05    阅读次数:129
个人项目初始版本实现代码(matlab)
% wordcount%实现词频的统计%% 清空变量clearclc%% 初始版本的开始测试str1 = 'my name is cuifengrui what is your name';%% 具体实现过程sort_str1 = sort(str1) %将字符串中的字符按照ascii码排序j = ...
分类:其他好文   时间:2019-01-03 11:01:19    阅读次数:220
hadoop2.7.3 词频统计
[hadoop@localhost mapreduce]$ hadoop jar hadoop-mapreduce-examples-2.7.3.jar wordcount /home/hadoop/data/input/sp.txt /home/hadoop/data/output/sp_2018... ...
分类:其他好文   时间:2018-12-25 20:20:15    阅读次数:218
1120条   上一页 1 ... 18 19 20 21 22 ... 112 下一页
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!