搜索关键字：词频，搜索到1120个结果！码迷,mamicode.com！

机器学习入门-文本数据-构造词频词袋模型 1.re.sub(进行字符串的替换) 2.nltk.corpus.stopwords.words(获得停用词表) 3.nltk.WordPunctTokenizer(对字符串进行分词操作) 4.np.vectorize(对函数进行向量化) 5. CountVectorizer(构建词频的词袋模型)

函数说明： 1. re.sub(r'[^a-zA-Z0-9\s]', repl='', sting=string) 用于进行字符串的替换，这里我们用来去除标点符号参数说明：r'[^a-zA-Z0-9\s]' 配对的模式，^表示起始位置，\s表示终止位置，[]表示取中间部分，这个的意思是找出除字符串 ...

分类：其他好文时间：2019-01-26 19:32:16 阅读次数：1824

python学习第十一个程序汉语文本词频统计

# CalThreeKingdoms.pyimport jieba'''安装第三方库中文分词jieba pip install jieba统计三国演义中出现次数最多的人'''txt = open("threekingdoms.txt", "rt", encoding="utf-8").read() ...

分类：编程语言时间：2019-01-26 17:57:30 阅读次数：166

字典树模板

字典树 1、定义：又称单词查找树，Trie树，是一种树形结构，是一种哈希树的变种。典型应用是用于统计，排序和保存大量的字符串（但不仅限于字符串），所以经常被搜索引擎系统用于文本词频统计 2、优点：利用字符串的公共前缀来减少查询时间，最大限度地减少无谓的字符串比较，查询效率比哈希树高 3、模板： co ...

分类：其他好文时间：2019-01-23 23:23:07 阅读次数：226

01 文本分析随记

一、停用词 1、含义：在语料中大量出现，但对我们分析没什么用的词，但对分析有干扰作用，需要剔除后再计算词频；比如：标点符号，量词等 2、停用词表百度搜索就有一堆了二、TF-IDF 前言：比如对《中国的蜜蜂养殖》进行词频统计，去掉停用词后计算词频发现“中国”、“蜜蜂“、“养殖” 三个词出现的次数一 ...

分类：其他好文时间：2019-01-19 19:58:53 阅读次数：172

机器学习入门-贝叶斯统计语料库的词频.groupby() collections

1..groupby()[].agg(by={}) 2. collections.de...(lambda:1) 统计的单词是语料库中所有的词，对Dataframe统计单词词频，同时增加一列数据count，这里我们使用reset_index,sort_values(by = ['counts], ...

分类：其他好文时间：2019-01-19 00:54:53 阅读次数：313

机器学习入门-贝叶斯中文新闻分类任务

对于需要构成语料库的数据，我们需要去停用词停用词包括 1. 语料中大量出现的如 1.！， 2.", 3.#, 4.$, 5.% 2. 没啥大用 1.一下 2.一些 3.一项 4.一则关键词提取 TF-IDF 比如有3个词：中国,蜜蜂,养殖 TF（词频）：表示的是蜜蜂在这个文章里出现的次数，即词 ...

分类：其他好文时间：2019-01-19 00:46:51 阅读次数：265

机器学习入门-贝叶斯拼写纠错实例

问题如果我们看到用户输入一个不在字典中的词，我们需要推测他实际想要输入的词使用贝叶斯公式表示： p(实际想要输入词|用户输入) = p(实际想要输入词) * p(用户输入|实际想要输入词) / p(用户输入) p(实际输入词) 表示的是这个词在语料库中出现的词频 p（用户输入|实际想要输入）实 ...

分类：其他好文时间：2019-01-18 19:56:35 阅读次数：424

word count项目情况

项目分组情况：我（潘萧臣）、鲍中飞基本功能模块，实现文章词频统计，每个人独自完成编写语言为C语言和python3.7.0，主要实现英文单词词数统计。拓展功能，在每个人完成的基础上实现网页内容爬取操作，将爬下来的内容进行词频统计，网页爬虫方面，还未进行详细了解，自己初步打算用python中的req ...

分类：其他好文时间：2019-01-08 15:14:05 阅读次数：129

个人项目初始版本实现代码（matlab）

% wordcount%实现词频的统计%% 清空变量clearclc%% 初始版本的开始测试str1 = 'my name is cuifengrui what is your name';%% 具体实现过程sort_str1 = sort(str1) %将字符串中的字符按照ascii码排序j = ...

分类：其他好文时间：2019-01-03 11:01:19 阅读次数：220

hadoop2.7.3 词频统计

[hadoop@localhost mapreduce]$ hadoop jar hadoop-mapreduce-examples-2.7.3.jar wordcount /home/hadoop/data/input/sp.txt /home/hadoop/data/output/sp_2018... ...

分类：其他好文时间：2018-12-25 20:20:15 阅读次数：218

共1120条上一页 1 ... 18 19 20 21 22 ... 112 下一页

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)