12.朴素贝叶斯-垃圾邮件分类 1. 读邮件数据集文件,提取邮件本身与标签。 列表 numpy数组 2.邮件预处理 邮件分句 名子分词 去掉过短的单词 词性还原 连接成字符串 传统方法来实现 nltk库的安装与使用 pip install nltk import nltk nltk.download ...
分类:
其他好文 时间:
2020-06-07 15:10:03
阅读次数:
82
1. 读邮件数据集文件,提取邮件本身与标签。 列表 numpy数组 2.邮件预处理 邮件分句 句子分词 大小写,标点符号,去掉过短的单词 词性还原:复数、时态、比较级 连接成字符串 2.1 传统方法来实现 2.2 nltk库的安装与使用 pip install nltk import nltk nl ...
分类:
其他好文 时间:
2020-06-07 14:56:00
阅读次数:
66
自迷宫勒索软件帮派开始臭名昭著以来已经一年了。之前被称为“ ChaCha勒索软件”(取自该恶意软件用于加密文件的流密码的名称),Maze“品牌”于2019年5月首次附加到勒索软件上。 迷宫的最初样本被绑定到装有漏洞利用工具包的假网站上。从那时起,通过多种方式提供了Maze:漏洞利用工具包,垃圾邮件, ...
分类:
其他好文 时间:
2020-06-06 11:06:26
阅读次数:
101
至少从2019年5月开始,恶意行为者就一直在积极部署MAZE勒索软件。勒索软件最初是通过垃圾邮件和漏洞利用工具包分发的,后来又转移到妥协后进行部署。根据我们在地下论坛中对涉嫌用户的观察以及整个Mandiant事件响应活动中的独特策略,技术和程序,多个参与者参与了MAZE勒索软件的操作。MAZE背后的 ...
分类:
其他好文 时间:
2020-06-06 10:36:18
阅读次数:
52
一、所有算法归结成四种算法 分类:识别某个对象属于哪个类别,常用的算法有:SVM(支持向量机)、nearest neighbors(最近邻)、random forest(随机森林),常见的应用有:垃圾邮件识别、图像识别。 回归:预测与对象相关联的连续值属性,常见的算法有:SVR(支持向量机)、 ri ...
分类:
编程语言 时间:
2020-05-31 10:49:08
阅读次数:
87
1.读取 def read_dataset(): file_path = r'C:\Users\D。\SMSSpamCollection' sms = open(file_path, encoding='utf-8') sms_data = [] sms_label = [] csv_reader ...
分类:
其他好文 时间:
2020-05-27 22:04:37
阅读次数:
97
1.读取 2.数据预处理 3.数据划分—训练集和测试集数据划分 from sklearn.model_selection import train_test_split x_train,x_test, y_train, y_test = train_test_split(data, target, ...
分类:
其他好文 时间:
2020-05-27 13:40:14
阅读次数:
82
1.读取 2.数据预处理 3.数据划分—训练集和测试集数据划分 from sklearn.model_selection import train_test_split x_train,x_test, y_train, y_test = train_test_split(data, target, ...
分类:
其他好文 时间:
2020-05-27 09:25:14
阅读次数:
77
1.读取 2.数据预处理 3.数据划分—训练集和测试集数据划分 from sklearn.model_selection import train_test_split x_train,x_test, y_train, y_test = train_test_split(data, target, ...
分类:
其他好文 时间:
2020-05-25 19:27:04
阅读次数:
61
1.读取 2.数据预处理 3.数据划分—训练集和测试集数据划分 from sklearn.model_selection import train_test_split x_train,x_test, y_train, y_test = train_test_split(data, target, ...
分类:
其他好文 时间:
2020-05-25 00:11:01
阅读次数:
66