1.字符串操作: 解析身份证号:生日、性别、出生地等。 凯撒密码编码与解码 网址观察与批量生成 2.英文词频统计预处理 下载一首英文的歌词或文章或小说,保存为utf8文件。 从文件读出字符串。 将所有大写转换为小写 将所有其他做分隔符(,.?!)替换为空格 分隔出一个一个的单词 并统计单词出现的次数 ...
分类:
其他好文 时间:
2019-03-04 20:37:57
阅读次数:
188
[大数据]数据预处理 1.字符串操作:解析身份证号:生日、性别、出生地等。 地址码: 表示编码对象常住户口所在县(市、旗、区)的行政区划代码。 出生日期码:表示编码对象出生的年、月、日,年、月、日代码之间不用分隔符,格式为YYYYMMDD,如19880328。 顺序码: 表示在同一地址码所标识的区域 ...
分类:
其他好文 时间:
2019-03-04 17:39:10
阅读次数:
153
wordcloud <! 2019 02 12 周二 11:22 <! / <![CDATA[/ <! / .title { text align: center; } .todo { font family: monospace; color: red; } .done { color: gree ...
分类:
编程语言 时间:
2019-02-12 11:41:32
阅读次数:
478
1. WordCount程序 1.1 WordCount源程序 1.2 运行程序,Run As->Java Applicatiion 1.3 编译打包程序,产生Jar文件 2 运行程序 2.1 建立要统计词频的文本文件 wordfile1.txt Spark Hadoop Big Data word ...
分类:
其他好文 时间:
2019-02-11 16:49:18
阅读次数:
114
>>> from collections import Counter>>> Counter(['apple','red','apple','red','red','pear'])Counter({'red': 3, 'apple': 2, 'pear': 1}) ...
分类:
其他好文 时间:
2019-01-31 20:45:46
阅读次数:
163
在hadoop生态中,wordcount是hadoop世界的第一个hello world程序。 wordcount程序是用于对文本中出现的词计数,从而得到词频,本例中的词以空格分隔。 关于mapper、combiner、shuffler、reducer等含义请参照Hadoop权威指南里的说明。 1、 ...
分类:
其他好文 时间:
2019-01-30 14:28:45
阅读次数:
209
1.句子如下: 2.分词: 2.词频向量化: 4.计算2个向量的相似度: ...
分类:
编程语言 时间:
2019-01-29 18:08:23
阅读次数:
413
函数说明: 1. cosing_similarity(array) 输入的样本为array格式,为经过词袋模型编码以后的向量化特征,用于计算两两样本之间的相关性 当我们使用词频或者TFidf构造出词袋模型,并对每一个文章内容做词统计以后, 我们如果要判断两个文章内容的相关性,这时候我们需要对数字映射 ...
分类:
其他好文 时间:
2019-01-26 22:03:45
阅读次数:
337
TF-idf模型:TF表示的是词频:即这个词在一篇文档中出现的频率 idf表示的是逆文档频率, 即log(文档的个数/1+出现该词的文档个数) 可以看出出现该词的文档个数越小,表示这个词越稀有,在这篇文档中也是越重要的 TF-idf: 表示TF*idf, 即词频*逆文档频率 词袋模型不仅考虑了一个词 ...
分类:
其他好文 时间:
2019-01-26 20:23:40
阅读次数:
795
函数说明: 1 CountVectorizer(ngram_range=(2, 2)) 进行字符串的前后组合,构造出新的词袋标签 参数说明:ngram_range=(2, 2) 表示选用2个词进行前后的组合,构成新的标签值 Ngram模型表示的是,对于词频而言,只考虑一个词,这里我们在CountVe ...
分类:
其他好文 时间:
2019-01-26 20:03:11
阅读次数:
1971