码迷,mamicode.com
首页 >  
搜索关键字:邮件域名解析 ip一致性 垃圾邮件 spam    ( 694个结果
在字符串的开头或结尾处做文本匹配
问题: 我们需要在字符串的开头或结尾处按照指定的文本模式做检查,例如检查文件的扩展名、URL协议类型等。 解决方案: 有一种简单的方法可用来检查字符串的开头或结尾,只要使用str.startswith()和str.endswith()方法就可以了 1 filename = 'spam.txt' 2 ...
分类:其他好文   时间:2020-07-20 15:34:29    阅读次数:78
布隆过滤器
用途:从众多数据中找到符合某种条件的数据,如黑名单,垃圾邮件等 介绍:布隆过滤器使用K个hash函数和一个m大小的数,以及一个m bit的位图。预先对每条数据都使用hash函数进行映射,映射得到的值再对m取模,得到一个值,把位图上对应位置置1(涂黑),对所有数据都进行映射取模置位后得到就是这么多数据 ...
分类:其他好文   时间:2020-07-13 21:13:07    阅读次数:50
【机器学习】朴素贝叶斯-02
心得体会 1交叉验证:从训练的数据里随机抽取作为测试集 # 4-6朴素贝叶斯过滤垃圾邮件 #朴素贝叶斯交叉验证 def textParse(bigString): import re listOfTokens=re.split('\\W+',bigString) return [tok.lower( ...
分类:其他好文   时间:2020-07-09 11:59:40    阅读次数:68
sas神经网络:构建人工神经网络模型来识别垃圾邮件
原文链接http://tecdat.cn/?p=14033 神经网络是一种非常通用的灵活预测模型,可用于解决各种问题,包括分类,降维和回归。 现实世界中的一些业务应用示例包括图像处理,医疗诊断,金融服务和欺诈检测。此样本说明如何使用SAS®In-Memory Statistics中的NEURAL语句 ...
分类:其他好文   时间:2020-07-08 14:59:00    阅读次数:79
Python机器学习(十五)朴素贝叶斯算法原理与代码实现
算法原理 朴素贝叶斯是经典的机器学习算法之一,也是为数不多的基于概率论的分类算法。朴素贝叶斯原理简单,也很容易实现,多用于文本分类,比如垃圾邮件过滤。 该算法的优点在于简单易懂、学习效率高、在某些领域的分类问题中能够与决策树、神经网络相媲美。 但由于该算法以自变量之间的独立(条件特征独立)性和连续变 ...
分类:编程语言   时间:2020-06-17 20:14:27    阅读次数:73
12.朴素贝叶斯-垃圾邮件分类
1. 读邮件数据集文件,提取邮件本身与标签。 列表 numpy数组 2.邮件预处理 邮件分句 名子分词 去掉过短的单词 词性还原 连接成字符串 传统方法来实现 nltk库的安装与使用 pip install nltk import nltk nltk.download() # sever地址改成 h ...
分类:其他好文   时间:2020-06-16 13:15:18    阅读次数:60
13-垃圾邮件分类2
1.读取 # 1.读取数据集 def read_dataset(): file_path = r'D:\SMSSpamCollection.txt' sms = open(file_path, encoding='utf-8') sms_data = [] sms_label = [] csv_re ...
分类:其他好文   时间:2020-06-16 12:50:49    阅读次数:51
13-垃圾邮件分类2
1.读取 2.数据预处理 3.数据划分—训练集和测试集数据划分 from sklearn.model_selection import train_test_split x_train,x_test, y_train, y_test = train_test_split(data, target, ...
分类:其他好文   时间:2020-06-14 20:45:45    阅读次数:70
12.朴素贝叶斯-垃圾邮件分类
1. 读邮件数据集文件,提取邮件本身与标签。 列表 numpy数组 2.邮件预处理 邮件分句 句子分词 大小写,标点符号,去掉过短的单词 词性还原:复数、时态、比较级 连接成字符串 2.1 传统方法来实现 2.2 nltk库的安装与使用 pip install nltk import nltk nl ...
分类:其他好文   时间:2020-06-14 20:23:08    阅读次数:60
12朴素贝叶斯-垃圾邮件分类
1. 读邮件数据集文件,提取邮件本身与标签。 列表 numpy数组 2.邮件预处理 邮件分句 句子分词 大小写,标点符号,去掉过短的单词 词性还原:复数、时态、比较级 连接成字符串 2.1 传统方法来实现 2.2 nltk库的安装与使用 pip install nltk import nltk nl ...
分类:其他好文   时间:2020-06-09 09:49:32    阅读次数:77
694条   上一页 1 2 3 4 ... 70 下一页
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!