前言 机器学习中,我们不能将全部数据用于模型训练,否则将没有数据集对模型进行验证,从而无法评估模型的预测效果。 验证集方法 整个数据集分成两部分:一部分用于训练,一部分用于验证,即训练集(training set)和测试集(test set)。 如上图所示,将左侧数据作为训练集(包含7、22、13等 ...
分类:
其他好文 时间:
2021-05-24 15:36:16
阅读次数:
0
1、聚类分析概述 聚类目前常用来做粗分类,粗分类完再细分类一般用其他算法实现 自顶向下法:分裂;自低向上法:聚合 2、相似性计算方法 2.1连续型属性的相似性计算方法 2.2二值离散型属性的相似性计算方法 2.3多值离散型属性的相似性计算方法 2.4混合类型属性的相似性计算方法 则d(1,2) = ...
分类:
编程语言 时间:
2021-05-24 13:39:30
阅读次数:
0
害,用着用着突然忘记怎么安装新的包了 那么如何将Anaconda集成到PyCharm中 (1)安装Anaconda。 1、进入Anaconda官网下载Anaconda,官网下载地址:https://www.anaconda.com/download/ 点击需要的版本进行下载,我这里选的是Window ...
第一章基本概念 1.什么是模式识别 根据已有知识的表达,针对待识别模式,判别决策其所属类别或者预测其对应的回归值 分为分类和回归两种形式 2.模式识别数字表达 数学解释:看成一种函数映射f(x),将待识别模式x从输入空间映射到输出空间,f(x)是关于已有知识的表达 模型:关于已有知识的一种表达方式, ...
分类:
其他好文 时间:
2021-05-23 23:57:14
阅读次数:
0
from sklearn.metrics import classification_report y_true=[0,1,2,2,2]#真值 y_pred=[0,0,2,2,1]#预测结果 print(classification_report(y_true,y_pred)) ...
分类:
其他好文 时间:
2021-05-23 23:39:17
阅读次数:
0
1、查看数据类型: type(数据)(在下面的探究中会标注出来) 2、初步探究(重点是机器学习模型只能处理数值数据,所以新闻样本集里的每一个文本样本都要转为TF-IDF向量。) from sklearn.datasets import fetch_20newsgroups from sklearn. ...
分类:
其他好文 时间:
2021-05-04 16:34:58
阅读次数:
0
如果用Python3的一些包,特别是科学计算及数据处理的话,Anaconda是一个不错的发行版本,它预安装了很多流行的python3 的包,它的官网在 https://www.anaconda.com/ archives网址在 https://repo.anaconda.com/archive/ 有 ...
分类:
编程语言 时间:
2021-05-04 16:29:50
阅读次数:
0
1. 为什么要离散化 连续属性离散化的目的是为了简化数据结构,数据结构离散化技术可以用来减少给定连续属性值的个数。离散化方法经常作为数据挖掘的工具。 2. 什么是数据的离散化 连续属性的离散化就是在连续属性的值域上,将值域划分为若干个离散的区间,最后用不同的符号或整数、值代表落在每个子区间中的属性值 ...
分类:
其他好文 时间:
2021-05-04 16:02:26
阅读次数:
0
Numpy实现K折交叉验证的数据划分 本实例使用Numpy的数组切片语法,实现了K折交叉验证的数据划分 背景:K折交叉验证 为什么需要这个?在机器学习中,因为如下原因,使用K折交叉验证能更好评估模型效果: 样本量不充足,划分了训练集和测试集后,训练数据更少; 训练集和测试集的不同划分,可能会导致不同 ...
分类:
其他好文 时间:
2021-05-04 15:39:17
阅读次数:
0
目标 了解Python Python的应用领域 Python的版本 Python介绍 Python是时下最流行、最火爆的编程语言之一,具体原因如下: 1. 简单、易学,适应人群广泛 2. 免费、开源 3. 应用领域广泛 备注:以下知名框架均是Python语言开发。 Google开源机器学习框架:Te ...
分类:
编程语言 时间:
2021-05-03 12:28:17
阅读次数:
0