先开个标题,以后慢慢填充。
k近邻算法(knn)属于监督学习
一、 三个关键点:1、k的取值,当k值较小时,选取点较少,相当于会有在较小的范围内进行学习预测,学习误差会减小,但是估计误差会增大,因为训练样本中存在噪声,选取过小的区域,噪声干扰的权重会较大,因为影响泛化能力,k减小意味整体模型复杂,容易过拟合;k选较大值时,以为选取较大的邻域进行预测,可以减少估计误差,但缺点是学习近似误差会增大,较远的点也会起到作用,k增大以为这模型简单。但是不能一味把k取大,除了计算量外,如k=N,那么无论输入实力是什么,预测结果都是训练集中最多的那个类。
2、距离的度量,最常见的欧式距离,更一般的是Lp距离,Lp范式,p=2时就是欧式距离。
3、分类决策规则:多数表决
二、kd树,是一种便于对k维空间中的数据进行快速检索的数据结构。kd树是二叉树,用来对空间进行划分,减少运算量的一种数据格式。
k均值(k-means)
是非监督学习,