标签:http img 词向量 ret 分支 download end 字符 path
1. 读邮件数据集文件,提取邮件本身与标签。
列表
numpy数组
2.邮件预处理
2.1 传统方法来实现
2.2 nltk库的安装与使用
pip install nltk
import nltk
nltk.download() # sever地址改成 http://www.nltk.org/nltk_data/
或
https://github.com/nltk/nltk_data下载gh-pages分支,里面的Packages就是我们要的资源。
将Packages文件夹改名为nltk_data。
或
网盘链接:https://pan.baidu.com/s/1iJGCrz4fW3uYpuquB5jbew 提取码:o5ea
放在用户目录。
----------------------------------
安装完成,通过下述命令可查看nltk版本:
import nltk
print nltk.__doc__
nltk.sent_tokenize(text) #对文本按照句子进行分割
nltk.word_tokenize(sent) #对句子进行分词
from nltk.corpus import stopwords
stops=stopwords.words(‘english‘)
nltk.pos_tag(tokens)
from nltk.stem import WordNetLemmatizer
lemmatizer = WordNetLemmatizer()
lemmatizer.lemmatize(‘leaves‘) #缺省名词
lemmatizer.lemmatize(‘best‘,pos=‘a‘)
lemmatizer.lemmatize(‘made‘,pos=‘v‘)
一般先要分词、词性标注,再按词性做词性还原。
def preprocessing(text):
sms_data.append(preprocessing(line[1])) #对每封邮件做预处理
源代码:
import csv import nltk from nltk.corpus import stopwords from nltk.stem import WordNetLemmatizer print(nltk.__doc__)#输出版本号 #预处理 def preprocessing(text): tokens = [word for sent in nltk.sent_tokenize(text) for word in nltk.word_tokenize(sent)]#分词 stops = stopwords.words("english")#停用词 tokens = [token for token in tokens if token not in stops]#去掉停用词 tokens = [token.lower() for token in tokens if len(token) >= 3]#将大写字母变为小写 lmtzr = WordNetLemmatizer() tokens = [lmtzr.lemmatize(token, pos=‘n‘) for token in tokens]#词性还原 复数 tokens = [lmtzr.lemmatize(token, pos=‘a‘) for token in tokens]#比较级 tokens = [lmtzr.lemmatize(token, pos=‘v‘) for token in tokens]#时态 return tokens #读取文件 file_path=r‘D:\PycharmProjects\201706120186罗奕涛\data\SMSSpamCollection‘ sms=open(file_path,‘r‘,encoding=‘utf-8‘) sms_data=[] sms_label=[] csv_reader=csv.reader(sms,delimiter=‘\t‘) for line in csv_reader: sms_label.append(line[0]) sms_data.append(preprocessing(line[1]))#对每封邮件做预处理 sms.close() print(sms_label) print(sms_data)
结果:
3. 训练集与测试集
4. 词向量
5. 模型
标签:http img 词向量 ret 分支 download end 字符 path
原文地址:https://www.cnblogs.com/tao614/p/12887717.html