1.字符串操作: 解析身份证号:生日、性别、出生地等。 凯撒密码编码与解码 网址观察与批量生成 解析身份证信息: 凯撒密码: 2.英文词频统计预处理 下载一首英文的歌词或文章或小说。 将所有大写转换为小写 将所有其他做分隔符(,.?!)替换为空格 分隔出一个一个的单词 并统计单词出现的次数。 3.文 ...
分类:
其他好文 时间:
2019-03-11 00:59:46
阅读次数:
173
1.字符串操作: 解析身份证号:生日、性别、出生地等。 凯撒密码编码与解码 网址观察与批量生成 2.英文词频统计预处理 下载一首英文的歌词或文章或小说,保存为utf8文件。 从文件读出字符串。 将所有大写转换为小写 将所有其他做分隔符(,.?!)替换为空格 分隔出一个一个的单词 并统计单词出现的次数 ...
分类:
其他好文 时间:
2019-03-06 17:49:15
阅读次数:
180
1.字符串操作: 身份证号解析 凯撒密码 网址观察与批量生成 2.英文词频统计预处理 ...
分类:
其他好文 时间:
2019-03-06 15:12:36
阅读次数:
187
1.字符串操作: 1.1解析身份证号:生日、性别、出生地等。 1.2 凯撒密码编码与解码 1.3网址观察与批量生成 2.英文词频统计预处理 下载一首英文的歌词或文章或小说,保存为utf8文件。 从文件读出字符串。 将所有大写转换为小写 将所有其他做分隔符(,.?!)替换为空格 分隔出一个一个的单词 ...
分类:
其他好文 时间:
2019-03-06 00:36:10
阅读次数:
147
1.字符串操作: 解析身份证号:生日、性别、出生地等。 凯撒密码编码与解码 网址观察与批量生成 2.英文词频统计预处理 下载一首英文的歌词或文章或小说,保存为utf8文件。 从文件读出字符串。 将所有大写转换为小写 将所有其他做分隔符(,.?!)替换为空格 分隔出一个一个的单词 并统计单词出现的次数 ...
分类:
其他好文 时间:
2019-03-04 20:37:57
阅读次数:
188
[大数据]数据预处理 1.字符串操作:解析身份证号:生日、性别、出生地等。 地址码: 表示编码对象常住户口所在县(市、旗、区)的行政区划代码。 出生日期码:表示编码对象出生的年、月、日,年、月、日代码之间不用分隔符,格式为YYYYMMDD,如19880328。 顺序码: 表示在同一地址码所标识的区域 ...
分类:
其他好文 时间:
2019-03-04 17:39:10
阅读次数:
153
# CalThreeKingdoms.pyimport jieba'''安装第三方库 中文分词jieba pip install jieba统计三国演义中出现次数最多的人'''txt = open("threekingdoms.txt", "rt", encoding="utf-8").read() ...
分类:
编程语言 时间:
2019-01-26 17:57:30
阅读次数:
166
字典树 1、定义:又称单词查找树,Trie树,是一种树形结构,是一种哈希树的变种。典型应用是用于统计,排序和保存大量的字符串(但不仅限于字符串),所以经常被搜索引擎系统用于文本词频统计 2、优点:利用字符串的公共前缀来减少查询时间,最大限度地减少无谓的字符串比较,查询效率比哈希树高 3、模板: co ...
分类:
其他好文 时间:
2019-01-23 23:23:07
阅读次数:
226
一、停用词 1、含义:在语料中大量出现,但对我们分析没什么用的词,但对分析有干扰作用,需要剔除后再计算词频;比如:标点符号,量词等 2、停用词表百度搜索就有一堆了 二、TF-IDF 前言: 比如对《中国的蜜蜂养殖》进行词频统计,去掉停用词后计算词频发现“中国”、“蜜蜂“、“养殖” 三个词出现的次数一 ...
分类:
其他好文 时间:
2019-01-19 19:58:53
阅读次数:
172
项目分组情况:我(潘萧臣)、鲍中飞 基本功能模块,实现文章词频统计,每个人独自完成编写语言为C语言和python3.7.0,主要实现英文单词词数统计。 拓展功能,在每个人完成的基础上实现网页内容爬取操作,将爬下来的内容进行词频统计,网页爬虫方面,还未进行详细了解,自己初步打算用python中的req ...
分类:
其他好文 时间:
2019-01-08 15:14:05
阅读次数:
129