1. 读邮件数据集文件,提取邮件本身与标签。 列表 numpy数组 执行代码: 运行结果: 2.邮件预处理 邮件分句 名子分词 去掉过短的单词 词性还原 连接成字符串 传统方法来实现 nltk库的安装与使用 pip install nltk import nltk nltk.download() # ...
分类:
其他好文 时间:
2020-05-20 20:13:08
阅读次数:
59
1. 读邮件数据集文件,提取邮件本身与标签。 列表 numpy数组 import csv file_path = r"SMSSpamCollection" sms = open(file_path, 'r', encoding='utf-8') data = csv.reader(sms, deli ...
分类:
其他好文 时间:
2020-05-20 12:11:10
阅读次数:
47
1. 读邮件数据集文件,提取邮件本身与标签。 列表 numpy数组 import csv file_path = r"SMSSpamCollection" sms = open(file_path, 'r', encoding='utf-8') data = csv.reader(sms, deli ...
分类:
其他好文 时间:
2020-05-19 23:11:49
阅读次数:
147
1. 读邮件数据集文件,提取邮件本身与标签。 列表 numpy数组 import csv sms=open("D:\机器学习\SMSSpamCollection",'r',encoding='utf-8') csv_reader=csv.reader(sms, delimiter='\t') for ...
分类:
其他好文 时间:
2020-05-18 20:22:09
阅读次数:
49
1. 读邮件数据集文件,提取邮件本身与标签。 列表 numpy数组 代码: 运行截图: 2.邮件预处理 邮件分句 名子分词 去掉过短的单词 词性还原 连接成字符串 传统方法来实现 nltk库的安装与使用 pip install nltk import nltk nltk.download() # s ...
分类:
其他好文 时间:
2020-05-18 16:31:57
阅读次数:
55
1. 读邮件数据集文件,提取邮件本身与标签。 列表 numpy数组 2.邮件预处理 邮件分句 句子分词 大小写,标点符号,去掉过短的单词 词性还原:复数、时态、比较级 连接成字符串 2.1 传统方法来实现 2.2 nltk库的安装与使用 pip install nltk import nltk nl ...
分类:
其他好文 时间:
2020-05-18 14:01:34
阅读次数:
44
1. 读邮件数据集文件,提取邮件本身与标签。 列表 numpy数组 2.邮件预处理 邮件分句 名子分词 去掉过短的单词 词性还原 连接成字符串 传统方法来实现 nltk库的安装与使用 pip install nltk import nltk nltk.download() # sever地址改成 h ...
分类:
其他好文 时间:
2020-05-18 12:42:59
阅读次数:
75
1. 读邮件数据集文件,提取邮件本身与标签。 列表 numpy数组 2.邮件预处理 邮件分句 名子分词 去掉过短的单词 词性还原 连接成字符串 传统方法来实现 nltk库的安装与使用 pip install nltk import nltk nltk.download() # sever地址改成 h ...
分类:
其他好文 时间:
2020-05-18 11:57:43
阅读次数:
51
朴素贝叶斯垃圾邮件分类 读邮件数据集文件,提取邮件本身与标签。 2.邮件预处理 2.1传统方法 2.1 nltk库 分词nltk.sent_tokenize(text) #对文本按照句子进行分割 nltk.word_tokenize(sent) #对句子进行分词 2.2 punkt 停用词from ...
分类:
其他好文 时间:
2020-05-17 22:04:44
阅读次数:
104
1. 读邮件数据集文件,提取邮件本身与标签。 列表 numpy数组 from IPython.core.interactiveshell import InteractiveShell InteractiveShell.ast_node_interactivity = "all" import cs ...
分类:
其他好文 时间:
2020-05-17 21:58:56
阅读次数:
91