在搭建一个AI模型或者是机器学习模型的时候怎么去评估模型,比如我们前期讲的利用朴素贝叶斯算法做的垃圾邮件分类算法,我们如何取评估它。我们需要一套完整的评估方法对我们的模型进行正确的评估,如果模型效果比较理想的话则可以放到线上使用,如果不理想的话则需要反复的去调整相关参数进行训练直到达到目的。 ...
分类:
其他好文 时间:
2020-07-23 23:20:40
阅读次数:
84
一、概述 贝叶斯分类算法是统计学的一种概率分类方法,朴素贝叶斯分类是贝叶斯分类中最简单的一种。其分类原理就是利 用贝叶斯公式根据某特征的先验概率计算出其后验概率,然后选择具有最大后验概率的类作为该特征所属的类。之 所以称之为”朴素”,是因为贝叶斯分类只做最原始、最简单的假设:所有的特征之间是统计独立 ...
分类:
编程语言 时间:
2020-07-12 16:50:57
阅读次数:
65
心得体会 1.计算每一个特征值在不同结果占比,例特征值c在结果A的所有特征的“占比”rA ,在结果B的所有特征“占比”rB,rB>rA使说明B结果可能性大 2.得到一条数据,将该数据转换成特征向量,计算所有特征值生成的不同结果的概率,选择其中概率最大的结果,例PA>PB,则该数据结果为PA 3.通过 ...
分类:
其他好文 时间:
2020-07-09 12:39:33
阅读次数:
74
心得体会 1交叉验证:从训练的数据里随机抽取作为测试集 # 4-6朴素贝叶斯过滤垃圾邮件 #朴素贝叶斯交叉验证 def textParse(bigString): import re listOfTokens=re.split('\\W+',bigString) return [tok.lower( ...
分类:
其他好文 时间:
2020-07-09 11:59:40
阅读次数:
68
昨天学习了简单的文本处理,之后在课后的练习中实现了包括了对tf-idf的处理和基于朴素贝叶斯简单的文本分类 基于tf-idf的数据集在出现多个关键词的时候一般能够相对准确对文本进行分类,但是对于相对具有深层含义的内容,例如情感的积极,情感的消息这方面的分类来说,就显得有些乏力的。根据昨天构建的文本分 ...
分类:
其他好文 时间:
2020-07-09 10:48:09
阅读次数:
72
第1章 绪论 1.1 基本概念 1.1.1 语言学与语音学 1.1.2 自然语言处理 1.1.3 关于“理解”的标准 1.2 自然语言处理研究的内容和面临的困难 1.2.1 自然语言处理研究的内容 1.2.2 自然语言处理涉及的几个层次 1.2.3 自然语言处理面临的困难 1.3 自然语言处理的基本 ...
分类:
编程语言 时间:
2020-07-03 12:49:02
阅读次数:
103
一、朴素贝叶斯分类器的构建 import numpy as np class BernoulliNavieBayes: def __init__(self, alpha=1.): # 平滑系数, 默认为1(拉普拉斯平滑). self.alpha = alpha def _class_prior_pr ...
分类:
其他好文 时间:
2020-06-30 12:34:35
阅读次数:
61
1.下面的代码是上一篇理论中的小例子 from sklearn.neighbors import KNeighborsClassifier # K近邻分类器 from sklearn.datasets import load_iris # 鸢尾花数据 from sklearn.tree import ...
分类:
其他好文 时间:
2020-06-28 22:54:43
阅读次数:
101
?所谓大数据(Big Data),就是需要处理的数据量非常巨大,已经达到了 TB、PB 甚至 EB、ZB 级别,需要成千上万块硬盘才能存储。传统的技术手段在大数据面前不堪一击,只能探索一套新的解决方案。 这套《大数据技术与应用教程》对大数据处理过程中涉及的各种关键技术做了详细的介绍,包括大数据思维、 ...
分类:
其他好文 时间:
2020-06-26 01:29:48
阅读次数:
95
朴素:在给定类别的情况下,各个特征相互独立 贝叶斯公式:P(A|B)=P(A)P(B|A)/P(B) 朴素贝叶斯:P(特征|类别)=P(特征)P(类别|特征)/P(类别) 核心思想:算一下概率,那种类别概率大,就分为那种类别。 在scikit-learn中的实现: 1.高斯贝叶斯:数据集符合高斯(正 ...
分类:
其他好文 时间:
2020-06-25 12:11:08
阅读次数:
100