搜索关键字：词频，搜索到1120个结果！码迷,mamicode.com！

数据预操作

1.字符串操作：解析身份证号：生日、性别、出生地等。凯撒密码编码与解码网址观察与批量生成 2.英文词频统计预处理下载一首英文的歌词或文章或小说，保存为utf8文件。从文件读出字符串。将所有大写转换为小写将所有其他做分隔符（,.？！）替换为空格分隔出一个一个的单词并统计单词出现的次数 ...

分类：其他好文时间：2019-03-04 20:37:57 阅读次数：188

字符串、文件操作，英文词频统计预处理

[大数据]数据预处理 1.字符串操作：解析身份证号：生日、性别、出生地等。地址码：表示编码对象常住户口所在县(市、旗、区)的行政区划代码。出生日期码：表示编码对象出生的年、月、日，年、月、日代码之间不用分隔符，格式为YYYYMMDD，如19880328。顺序码：表示在同一地址码所标识的区域 ...

分类：其他好文时间：2019-03-04 17:39:10 阅读次数：153

使用Python统计文件中词频，并且生成词云

wordcloud <! 2019 02 12 周二 11:22 <! / <![CDATA[/ <! / .title { text align: center; } .todo { font family: monospace; color: red; } .done { color: gree ...

分类：编程语言时间：2019-02-12 11:41:32 阅读次数：478

MapReduce基础

1. WordCount程序 1.1 WordCount源程序 1.2 运行程序，Run As->Java Applicatiion 1.3 编译打包程序，产生Jar文件 2 运行程序 2.1 建立要统计词频的文本文件 wordfile1.txt Spark Hadoop Big Data word ...

分类：其他好文时间：2019-02-11 16:49:18 阅读次数：114

list 转换成dictionary，并统计词频

>>> from collections import Counter>>> Counter(['apple','red','apple','red','red','pear'])Counter({'red': 3, 'apple': 2, 'pear': 1}) ...

分类：其他好文时间：2019-01-31 20:45:46 阅读次数：163

hadoop的第一个hello world程序（wordcount）

在hadoop生态中，wordcount是hadoop世界的第一个hello world程序。 wordcount程序是用于对文本中出现的词计数，从而得到词频，本例中的词以空格分隔。关于mapper、combiner、shuffler、reducer等含义请参照Hadoop权威指南里的说明。 1、 ...

分类：其他好文时间：2019-01-30 14:28:45 阅读次数：209

自然语言处理之比较两个句子的相似度余弦相似度

1.句子如下： 2.分词： 2.词频向量化： 4.计算2个向量的相似度： ...

分类：编程语言时间：2019-01-29 18:08:23 阅读次数：413

函数说明： 1. cosing_similarity(array) 输入的样本为array格式，为经过词袋模型编码以后的向量化特征，用于计算两两样本之间的相关性当我们使用词频或者TFidf构造出词袋模型，并对每一个文章内容做词统计以后，我们如果要判断两个文章内容的相关性，这时候我们需要对数字映射 ...

分类：其他好文时间：2019-01-26 22:03:45 阅读次数：337

机器学习入门-文本数据-构造Tf-idf词袋模型(词频和逆文档频率) 1.TfidfVectorizer(构造tf-idf词袋模型)

TF-idf模型：TF表示的是词频：即这个词在一篇文档中出现的频率 idf表示的是逆文档频率，即log(文档的个数/1+出现该词的文档个数) 可以看出出现该词的文档个数越小，表示这个词越稀有，在这篇文档中也是越重要的 TF-idf：表示TF*idf, 即词频*逆文档频率词袋模型不仅考虑了一个词 ...

分类：其他好文时间：2019-01-26 20:23:40 阅读次数：795

机器学习入门-文本数据-构造Ngram词袋模型 1.CountVectorizer(ngram_range) 构建Ngram词袋模型

函数说明： 1 CountVectorizer(ngram_range=(2, 2)) 进行字符串的前后组合，构造出新的词袋标签参数说明：ngram_range=(2, 2) 表示选用2个词进行前后的组合，构成新的标签值 Ngram模型表示的是，对于词频而言，只考虑一个词，这里我们在CountVe ...

分类：其他好文时间：2019-01-26 20:03:11 阅读次数：1971

共1120条上一页 1 ... 17 18 19 20 21 ... 112 下一页

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)