1. 读邮件数据集文件,提取邮件本身与标签。 列表 numpy数组 2.邮件预处理 邮件分句 句子分词 大小写,标点符号,去掉过短的单词 词性还原:复数、时态、比较级 连接成字符串 2.1 传统方法来实现 2.2 nltk库的安装与使用 pip install nltk import nltk nl ...
分类:
其他好文 时间:
2020-05-16 19:09:13
阅读次数:
60
基于贝叶斯定理与特征条件独立假设的分类方法 首先基于特征条件独立假设学习输入/输出的联合概率分布,然后基于此模型,对给定的输入x,利用贝叶斯定理求出后验概率最大的输出y, 有监督的学习算法,解决的是分类问题,客户是否流失、是否值得投资、信用等级评定等多分类问题 简单易懂、学习效率高、在某些领域的分类 ...
分类:
其他好文 时间:
2020-05-14 19:50:34
阅读次数:
69
朴素贝叶斯 概述 贝叶斯分类是一类分类算法的总称,这类算法均以贝叶斯定理为基础,故统称为贝叶斯分类。本章首先介绍贝叶斯分类算法的基础——贝叶斯定理。最后,我们通过实例来讨论贝叶斯分类的中最简单的一种: 朴素贝叶斯分类。 贝叶斯理论 & 条件概率 贝叶斯理论 我们现在有一个数据集,它由两类数据组成,数 ...
分类:
其他好文 时间:
2020-05-14 15:04:29
阅读次数:
61
[TOC] 1、贝叶斯公式 贝叶斯的公式如下 $$ P(B_{i}| A) = \frac {P(B_{i} | P(A)) P(B_{i})} { \sum\nolimits_{j=1}^{N} P(B_{j}) P(A|P(B_{j}))} $$ 2、分类中的朴素贝叶斯 上述公式中我们可以将A当 ...
分类:
其他好文 时间:
2020-05-14 13:45:44
阅读次数:
61
1. 读邮件数据集文件,提取邮件本身与标签。 列表 numpy数组 2.邮件预处理 邮件分句 句子分词 大小写,标点符号,去掉过短的单词 词性还原:复数、时态、比较级 连接成字符串 2.1 传统方法来实现 2.2 nltk库的安装与使用 pip install nltk import nltk nl ...
分类:
其他好文 时间:
2020-05-14 13:18:59
阅读次数:
66
1.理解分类与监督学习、聚类与无监督学习。 简述分类与聚类的联系与区别。 简述什么是监督学习与无监督学习。 对于分类来说,在对数据集分类时,我们是知道这个数据集是有多少种类的;而对于聚类来说,在对数据集操作时,我们是不知道该数据集包含多少类,我们要做的,是将数据集中相似的数据归纳在一起。他们都是对数 ...
分类:
编程语言 时间:
2020-05-13 20:34:52
阅读次数:
65
1.理解分类与监督学习、聚类与无监督学习。 简述分类与聚类的联系与区别。 简述什么是监督学习与无监督学习。 2.朴素贝叶斯分类算法 实例 利用关于心脏病患者的临床历史数据集,建立朴素贝叶斯心脏病分类模型。 有六个分类变量(分类因子):性别,年龄、KILLP评分、饮酒、吸烟、住院天数 目标分类变量疾病 ...
分类:
编程语言 时间:
2020-05-13 20:32:49
阅读次数:
79
1.理解分类与监督学习、聚类与无监督学习。 简述分类与聚类的联系与区别。 简述什么是监督学习与无监督学习。 2.朴素贝叶斯分类算法 实例 利用关于心脏病患者的临床历史数据集,建立朴素贝叶斯心脏病分类模型。 有六个分类变量(分类因子):性别,年龄、KILLP评分、饮酒、吸烟、住院天数 目标分类变量疾病 ...
分类:
编程语言 时间:
2020-05-13 18:36:51
阅读次数:
63
1.理解分类与监督学习、聚类与无监督学习。 简述分类与聚类的联系与区别。 简述什么是监督学习与无监督学习。 分类是为了确定点的类别,具体有哪些类别是已知的,是监督学习。 聚类是把点成若干类,事先是没有类别的,是一种无监督学习。 监督学习:从正确的例子中学习 无监督学习:缺乏足够的先验知识 2.朴素贝 ...
分类:
编程语言 时间:
2020-05-13 11:47:11
阅读次数:
73
1.理解分类与监督学习、聚类与无监督学习。 简述分类与聚类的联系与区别。 简述什么是监督学习与无监督学习。 分类与聚类的区别:是否有已知分类的条件。分类没有,聚类有。 监督学习:已知某些类别的情况下,即具有事先标记的数据,通过特征分析来学习的一类算法。 无监督学习:不具有事先标签的数据,缺乏先验知识 ...
分类:
编程语言 时间:
2020-05-13 00:25:07
阅读次数:
76