1.读取 2.数据预处理 3.数据划分—训练集和测试集数据划分 from sklearn.model_selection import train_test_split x_train,x_test, y_train, y_test = train_test_split(data, target, ...
分类:
其他好文 时间:
2020-05-23 21:50:40
阅读次数:
56
1.读取 2.数据预处理 # 词性还原def get_wordnet_pos(treebank_tag): if treebank_tag.startswith('J'): return nltk.corpus.wordnet.ADJ elif treebank_tag.startswith('V' ...
分类:
其他好文 时间:
2020-05-23 20:31:50
阅读次数:
70
1.读取 file_path=r'D:\PycharmProjects\data\SMSSpamCollection' sms=open(file_path,'r',encoding='utf-8') sms_data=[] sms_label=[] csv_reader=csv.reader(sm ...
分类:
其他好文 时间:
2020-05-23 20:30:03
阅读次数:
87
1.读取 2.数据预处理 3.数据划分—训练集和测试集数据划分 from sklearn.model_selection import train_test_split x_train,x_test, y_train, y_test = train_test_split(data, target, ...
分类:
其他好文 时间:
2020-05-23 20:25:55
阅读次数:
59
13-垃圾邮件分类2 TF-IDF 概念 是一种统计方法,用以评估一个词对于一个语料库中一份文件的重要程度。 词的重要性随着在文件中出现的次数正比增加,同时随着它在语料库其他文件中出现的频率反比下降。就是说一个词在某一个文档中出现次数比较多,其他文档没有出现,说明该词对该份文档分类很重要。然而如果其 ...
分类:
其他好文 时间:
2020-05-23 20:23:01
阅读次数:
66
1.读取 2.数据预处理 3.数据划分—训练集和测试集数据划分 from sklearn.model_selection import train_test_split x_train,x_test, y_train, y_test = train_test_split(data, target, ...
分类:
其他好文 时间:
2020-05-23 20:21:37
阅读次数:
45
1.读取 2.数据预处理 3.数据划分—训练集和测试集数据划分 from sklearn.model_selection import train_test_split x_train,x_test, y_train, y_test = train_test_split(data, target, ...
分类:
其他好文 时间:
2020-05-23 20:16:33
阅读次数:
59
1.读取 2.数据预处理 import csv import nltk import re from nltk.corpus import stopwords from nltk.stem import WordNetLemmatizer import pandas as pd #返回类别 def ...
分类:
其他好文 时间:
2020-05-23 20:02:00
阅读次数:
60
1.读取 2.数据预处理 # 词性还原def get_wordnet_pos(treebank_tag): if treebank_tag.startswith('J'): return nltk.corpus.wordnet.ADJ elif treebank_tag.startswith('V' ...
分类:
其他好文 时间:
2020-05-23 18:50:37
阅读次数:
52
1.读取 2.数据预处理 3.数据划分—训练集和测试集数据划分 from sklearn.model_selection import train_test_split x_train,x_test, y_train, y_test = train_test_split(data, target, ...
分类:
其他好文 时间:
2020-05-23 18:33:50
阅读次数:
54