码迷,mamicode.com
首页 >  
搜索关键字:词频    ( 1120个结果
数据预操作
1.字符串操作: 解析身份证号:生日、性别、出生地等。 凯撒密码编码与解码 网址观察与批量生成 2.英文词频统计预处理 下载一首英文的歌词或文章或小说,保存为utf8文件。 从文件读出字符串。 将所有大写转换为小写 将所有其他做分隔符(,.?!)替换为空格 分隔出一个一个的单词 并统计单词出现的次数 ...
分类:其他好文   时间:2019-03-04 20:37:57    阅读次数:188
字符串、文件操作,英文词频统计预处理
[大数据]数据预处理 1.字符串操作:解析身份证号:生日、性别、出生地等。 地址码: 表示编码对象常住户口所在县(市、旗、区)的行政区划代码。 出生日期码:表示编码对象出生的年、月、日,年、月、日代码之间不用分隔符,格式为YYYYMMDD,如19880328。 顺序码: 表示在同一地址码所标识的区域 ...
分类:其他好文   时间:2019-03-04 17:39:10    阅读次数:153
使用Python统计文件中词频,并且生成词云
wordcloud <! 2019 02 12 周二 11:22 <! / <![CDATA[/ <! / .title { text align: center; } .todo { font family: monospace; color: red; } .done { color: gree ...
分类:编程语言   时间:2019-02-12 11:41:32    阅读次数:478
MapReduce基础
1. WordCount程序 1.1 WordCount源程序 1.2 运行程序,Run As->Java Applicatiion 1.3 编译打包程序,产生Jar文件 2 运行程序 2.1 建立要统计词频的文本文件 wordfile1.txt Spark Hadoop Big Data word ...
分类:其他好文   时间:2019-02-11 16:49:18    阅读次数:114
list 转换成dictionary,并统计词频
>>> from collections import Counter>>> Counter(['apple','red','apple','red','red','pear'])Counter({'red': 3, 'apple': 2, 'pear': 1}) ...
分类:其他好文   时间:2019-01-31 20:45:46    阅读次数:163
hadoop的第一个hello world程序(wordcount)
在hadoop生态中,wordcount是hadoop世界的第一个hello world程序。 wordcount程序是用于对文本中出现的词计数,从而得到词频,本例中的词以空格分隔。 关于mapper、combiner、shuffler、reducer等含义请参照Hadoop权威指南里的说明。 1、 ...
分类:其他好文   时间:2019-01-30 14:28:45    阅读次数:209
自然语言处理之比较两个句子的相似度 余弦相似度
1.句子如下: 2.分词: 2.词频向量化: 4.计算2个向量的相似度: ...
分类:编程语言   时间:2019-01-29 18:08:23    阅读次数:413
机器学习-文本数据-文本的相关性矩阵 1.cosing_similarity(用于计算两两特征之间的相关性)
函数说明: 1. cosing_similarity(array) 输入的样本为array格式,为经过词袋模型编码以后的向量化特征,用于计算两两样本之间的相关性 当我们使用词频或者TFidf构造出词袋模型,并对每一个文章内容做词统计以后, 我们如果要判断两个文章内容的相关性,这时候我们需要对数字映射 ...
分类:其他好文   时间:2019-01-26 22:03:45    阅读次数:337
机器学习入门-文本数据-构造Tf-idf词袋模型(词频和逆文档频率) 1.TfidfVectorizer(构造tf-idf词袋模型)
TF-idf模型:TF表示的是词频:即这个词在一篇文档中出现的频率 idf表示的是逆文档频率, 即log(文档的个数/1+出现该词的文档个数) 可以看出出现该词的文档个数越小,表示这个词越稀有,在这篇文档中也是越重要的 TF-idf: 表示TF*idf, 即词频*逆文档频率 词袋模型不仅考虑了一个词 ...
分类:其他好文   时间:2019-01-26 20:23:40    阅读次数:795
机器学习入门-文本数据-构造Ngram词袋模型 1.CountVectorizer(ngram_range) 构建Ngram词袋模型
函数说明: 1 CountVectorizer(ngram_range=(2, 2)) 进行字符串的前后组合,构造出新的词袋标签 参数说明:ngram_range=(2, 2) 表示选用2个词进行前后的组合,构成新的标签值 Ngram模型表示的是,对于词频而言,只考虑一个词,这里我们在CountVe ...
分类:其他好文   时间:2019-01-26 20:03:11    阅读次数:1971
1120条   上一页 1 ... 17 18 19 20 21 ... 112 下一页
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!