算法原理 朴素贝叶斯是经典的机器学习算法之一,也是为数不多的基于概率论的分类算法。朴素贝叶斯原理简单,也很容易实现,多用于文本分类,比如垃圾邮件过滤。 该算法的优点在于简单易懂、学习效率高、在某些领域的分类问题中能够与决策树、神经网络相媲美。 但由于该算法以自变量之间的独立(条件特征独立)性和连续变 ...
分类:
编程语言 时间:
2020-06-17 20:14:27
阅读次数:
73
1. 读邮件数据集文件,提取邮件本身与标签。 列表 numpy数组 2.邮件预处理 邮件分句 名子分词 去掉过短的单词 词性还原 连接成字符串 传统方法来实现 nltk库的安装与使用 pip install nltk import nltk nltk.download() # sever地址改成 h ...
分类:
其他好文 时间:
2020-06-16 13:15:18
阅读次数:
60
1. 读邮件数据集文件,提取邮件本身与标签。 列表 numpy数组 2.邮件预处理 邮件分句 句子分词 大小写,标点符号,去掉过短的单词 词性还原:复数、时态、比较级 连接成字符串 2.1 传统方法来实现 2.2 nltk库的安装与使用 pip install nltk import nltk nl ...
分类:
其他好文 时间:
2020-06-14 20:23:08
阅读次数:
60
老师:MissDu 1.理解分类与监督学习、聚类与无监督学习。 简述分类与聚类的联系与区别。 简述什么是监督学习与无监督学习。 答: 1. 分类与聚类: 联系:分类和聚类都包含一个过程:对于想要分析的目标点,都会在数据集中寻找离它最近的点,即二者都用到了NN算法。 区别:分类的目的是为了确定一个点的 ...
分类:
编程语言 时间:
2020-06-10 23:01:39
阅读次数:
98
1. 读邮件数据集文件,提取邮件本身与标签。 列表 numpy数组 2.邮件预处理 邮件分句 句子分词 大小写,标点符号,去掉过短的单词 词性还原:复数、时态、比较级 连接成字符串 2.1 传统方法来实现 2.2 nltk库的安装与使用 pip install nltk import nltk nl ...
分类:
其他好文 时间:
2020-06-09 09:49:32
阅读次数:
77
1.理解分类与监督学习、聚类与无监督学习。 简述分类与聚类的联系与区别。 简述什么是监督学习与无监督学习。 2.朴素贝叶斯分类算法 实例 利用关于心脏病患者的临床历史数据集,建立朴素贝叶斯心脏病分类模型。 有六个分类变量(分类因子):性别,年龄、KILLP评分、饮酒、吸烟、住院天数 目标分类变量疾病 ...
分类:
其他好文 时间:
2020-06-09 09:25:21
阅读次数:
87
1.理解分类与监督学习、聚类与无监督学习。简述分类与聚类的联系与区别。 答:分类与聚类的联系:想要分析的目标点,都会在数据集中寻找离它最近的点。 分类与聚类的区别:分类是事先定义好类别 ,类别数不变 。分类器需要由人工标注的分类训练语料训练得到,属于有指导学习范畴。聚类则没有事先预定的类别,类别数不 ...
分类:
编程语言 时间:
2020-06-08 23:43:14
阅读次数:
101
12.朴素贝叶斯-垃圾邮件分类 1. 读邮件数据集文件,提取邮件本身与标签。 列表 numpy数组 2.邮件预处理 邮件分句 名子分词 去掉过短的单词 词性还原 连接成字符串 传统方法来实现 nltk库的安装与使用 pip install nltk import nltk nltk.download ...
分类:
其他好文 时间:
2020-06-07 15:10:03
阅读次数:
82
1. 读邮件数据集文件,提取邮件本身与标签。 列表 numpy数组 2.邮件预处理 邮件分句 句子分词 大小写,标点符号,去掉过短的单词 词性还原:复数、时态、比较级 连接成字符串 2.1 传统方法来实现 2.2 nltk库的安装与使用 pip install nltk import nltk nl ...
分类:
其他好文 时间:
2020-06-07 14:56:00
阅读次数:
66
文章迁移说明:此文已由lightinglei于2019-02-18发布,是本人的另外一个账号,现同步迁移至本账号 一、朴素贝叶斯原理介绍 书籍上对概念的介绍,因引入了很多数学符号,看起来比较晦涩难懂,下面我们以案例的形式先带大家回顾下概率的一些基本知识点,下表为互联网行业不同岗位、不同体重是否会被女 ...
分类:
编程语言 时间:
2020-06-06 12:46:14
阅读次数:
71