有监督学习的一般流程: 过拟合问题:所选模型对已知数据预测得很好,但对未知数据预测很差。 模型选择的方法: ①正则化:把对已知数据的训练误差和模型复杂度降到最小。 ②交叉验证,数据比较少时,将数据集随机切分,组合为训练集和测试集。 Scikit-learn ...
分类:
其他好文 时间:
2021-01-27 14:02:50
阅读次数:
0
无监督学习 通俗来讲,无监督学习就是没有目标值 无监督学习包含算法 聚类 K-means(K均值聚类) 降维 PCA K-means原理 K-means的聚类效果图 K-means聚类步骤 随机设置K个特征空间内的点作为初始的聚类中心 对于其他每个点计算到K个中心的距离,未知的点选择最近的一个聚类中 ...
分类:
编程语言 时间:
2021-01-26 12:18:25
阅读次数:
0
朴素贝叶斯算法 什么是朴素贝叶斯分类方法 条件概率与联合概率 联合概率:包含多个条件,且所有条件同时成立的概率 记作:P(A,B) 特性:P(A, B) = P(A)P(B) 条件概率:就是事件A在另外一个事件B已经发生条件下的发生概率 记作:P(A|B) 特性:P(A1,A2|B) = P(A1| ...
分类:
编程语言 时间:
2021-01-22 12:09:06
阅读次数:
0
HBase 虽然可以存储数亿或数十亿行数据,但是对于数据分析来说,不太友好,只提供了简单的基于 Key 值的快速查询能力,没法进行大量的条件查询。现有hbase的查询工具有很多如:Hive,Tez,Impala,Shark/Spark,Phoenix等。今天主要说Hive,Hive方便地提供了Hiv ...
分类:
其他好文 时间:
2021-01-21 10:54:30
阅读次数:
0
K-近邻算法 什么是K-近邻算法 你的“邻居”来推断出你的类别 1、K-近邻算法(KNN) 1.1 定义 如果一个样本在特征空间中的k个最相似(即特征空间中最邻近)的样本中的大多数属于某一个类别,则该样本也属于这个类别。 来源:KNN算法最早是由Cover和Hart提出的一种分类算法 1.2 距离公 ...
分类:
编程语言 时间:
2021-01-16 11:59:04
阅读次数:
0
我认为机器学习中的模型应该用以下第三条解释。 a system of postulates, data, and inferences presented as a mathematical description of an entity or state of affairs 假设、数据和推论的 ...
分类:
其他好文 时间:
2021-01-14 11:26:56
阅读次数:
0
简介 Jupyter Notebook是基于网页的用于交互计算的应用程序。支持实时代码,数学方程,可视化和 markdown,其可被应用于全过程计算:开发、文档编写、运行代码和展示结果,用途包括:数据清理和转换,数值模拟,统计建模,机器学习等等 pip安装 pip install jupyter 生 ...
分类:
编程语言 时间:
2021-01-14 10:48:02
阅读次数:
0
##引言 ###由于本节代码比较简单,就不上代码了,一切以截图为准 ###学习目标 了解Numpy运算速度上的优势 应用numpy的基本操作 ###开发工具 python3.8 jupyter notebook ##1、numpy的介绍 ###Numpy(Numerical Python)是一个开源 ...
分类:
其他好文 时间:
2021-01-11 11:19:32
阅读次数:
0
Python 是面向对象、解释型的编程语言优点:简洁、易学、几乎全能、支持面向对象 Python能做什么?数据分析与挖掘、黑客逆向编程、网络爬虫、机器学习、开发WEB项目、开发游戏、自动化运维 Python的安装官网下载:https://www.python.org/downloads/window ...
分类:
编程语言 时间:
2021-01-07 11:57:31
阅读次数:
0
三次握手: 第一次握手:客户端向服务端发送TCP报文,标志位SYN=1,客户端发送序号Seq为Sequence number=x(0) 第二次握手:服务端回应TCP报文:SYN=1 ACK=1 将确认序号Ack(Acknowledgement Number)设置为客户端发送序号Seq加1,即x(0) ...
分类:
其他好文 时间:
2021-01-06 12:31:04
阅读次数:
0