1. 读邮件数据集文件,提取邮件本身与标签。 列表 numpy数组 2.邮件预处理 邮件分句 句子分词 大小写,标点符号,去掉过短的单词 词性还原:复数、时态、比较级 连接成字符串 2.1 传统方法来实现 2.2 nltk库的安装与使用 pip install nltk import nltk nl ...
分类:
其他好文 时间:
2020-05-17 19:19:44
阅读次数:
70
1. 读邮件数据集文件,提取邮件本身与标签。 列表 numpy数组 2.邮件预处理 邮件分句 句子分词 大小写,标点符号,去掉过短的单词 词性还原:复数、时态、比较级 连接成字符串 2.1 传统方法来实现 2.2 nltk库的安装与使用 pip install nltk import nltk nl ...
分类:
其他好文 时间:
2020-05-17 19:18:45
阅读次数:
75
2016年的某一天,不小心看了下自己写的几篇文章,瞬间被恶心到了。 语句不通顺 废话一大堆 标点符号错乱 图片丑陋 排版恶心 缺少实际demo,并且没有直观的在线体验效果 毅然决然的删掉了以前的文章,在此给大家带来的不便希望谅解。本周已经开始对删除的文章着手回复,目前进度如下:《每周一点canvas ...
分类:
其他好文 时间:
2020-05-17 16:02:56
阅读次数:
54
1. 读邮件数据集文件,提取邮件本身与标签。 列表 numpy数组 2.邮件预处理 邮件分句 句子分词 大小写,标点符号,去掉过短的单词 词性还原:复数、时态、比较级 连接成字符串 2.1 传统方法来实现 2.2 nltk库的安装与使用 pip install nltk import nltk nl ...
分类:
其他好文 时间:
2020-05-16 19:09:13
阅读次数:
60
1、Handles and Pointers 您可能已经在C ++ / CLI代码中看到标点符号“ ^”并对此感到疑惑。如您所知,在C ++中,* 表示指针,在C ++ / CLI中,^ 表示句柄。现在,“ *”指定驻留在CRT堆上的本机指针,而句柄则指定“安全指针”并驻留在托管堆上。可以将这些句柄 ...
分类:
其他好文 时间:
2020-05-16 12:41:37
阅读次数:
136
结论:关系数据库不适合做全文搜索:like '%xxx%' 效率很慢,建的索引将无效,查询的时候会像翻书一样一页一页的翻,返回的结果没有匹配度的概念,比如可能希望搜索的关键词在文章中出现的次数越多越是我想要的文章,当搜索 live 的时候,也想把 LIVE/lives/living 搜出来,但是数据 ...
分类:
Web程序 时间:
2020-05-16 12:40:15
阅读次数:
87
1. 读邮件数据集文件,提取邮件本身与标签。 列表 numpy数组 2.邮件预处理 邮件分句 句子分词 大小写,标点符号,去掉过短的单词 词性还原:复数、时态、比较级 连接成字符串 2.1 传统方法来实现 2.2 nltk库的安装与使用 pip install nltk import nltk nl ...
分类:
其他好文 时间:
2020-05-14 13:18:59
阅读次数:
66
题目: 给定一串字符,不超过100个字符,可能包括括号、数字、字母、标点符号、空格,编程检查这一串字符中的( ) ,[ ],{ }是否匹配。 输入格式: 输入在一行中给出一行字符串,不超过100个字符,可能包括括号、数字、字母、标点符号、空格。 输出格式: 如果括号配对,输出yes,否则输出no。 ...
分类:
其他好文 时间:
2020-05-02 17:11:07
阅读次数:
176
字符:每一个字母、汉字、标点符号、空格、回车、换行等,都是一个字符。 字符集:指字符组成的集合,集合中每个字符都有一个整数的编号。同一个字符在不同的字符集中,它的编号一般是不同。常见的字符集如下。 + ASCII:英语国家使用到的字符包括英文字母、标点、控制类字符共128个,所以在计算机领域最初的字 ...
分类:
其他好文 时间:
2020-04-29 15:00:25
阅读次数:
65
一、字符集的概念1、字符编码(characterencoding):字符编码是一种法则,在数字与符号之间建立的对应关系。不同的国家有不同的语言,包含的文字、标点符号、图形符号各有不同。例如在ASCII编码中,用数字97表达字符‘a‘与字符集相对应,常见的字符编码有ASCII,GBK,GB18030,Unicode等。2、字符集(Characterset)字符集是字符的集合,字符是文
分类:
数据库 时间:
2020-04-25 10:56:34
阅读次数:
122