标签:方法 array 设置 oid core param 权重 通过 概率
neighbors.KNeighborsClassifier k近邻分类
neighbors.KNeighborsRegressor k近邻回归
neighbors.RadiusNeighborsClassifier R近邻分类
neighbors.RadiusNeighborsRegressor R近邻回归
neighbors.NearestCentroid
neighbors.KernelDensity
neighbors.LocalOutlierFactor
1、neighbors.NearestNeighbors 实施近邻搜索的非监督学习
2、neighbors.BallTree balltree树形数据结构
3、neighbors.KDTree KDtree树形数据结构
4、neighbors.DistanceMetric 距离度量标准
5、neighbors.kneighbors_graph k近邻矩阵图
6、neighbors.radius_neighbors_graph R近邻矩阵图
根据k近邻的多数决来进行分类
模型参数:
n_neighbors : int, optional (default = 5)
k值
weights : str or callable, optional (default = ‘uniform’)
k近邻的加权贡献度
● ‘uniform’ : 所有近邻点的权重一样
● ‘distance’:权重为距离的倒数。距离越近的点权值越大。
● [callable] :可以调用自定义函数
algorithm : {‘auto’, ‘ball_tree’, ‘kd_tree’, ‘brute’}, optional
计算最近邻的算法
● ‘ball_tree’ 使用BallTree类的数据结构
● ‘kd_tree’ 使用KDTree类的数据结构
● ‘brute’ 使用暴力搜索
● ‘auto’ 自动选择合适的算法
leaf_size : int, optional (default = 30)
Leaf_size参数将会传递给BallTree类或KDTree类。这会影响构建数据结构和查询时的速度,以及存储数的内存大小。最优值取决于实际问题。通常Leaf_size越大,数据结构创建
的越快,但查询会变慢;反之Leaf_size越小,数据结构创建的越慢,但查询会变快。如果是暴力破解的话,不需要设置该参数。
p : integer, optional (default = 2)
闵可夫斯基距离度量时的p值。其他距离度量可以不需要设置该参数。当闵可夫斯基的p=2时,等价于欧几里得距离。
metric : string or callable, default ‘minkowski‘
计算最近邻所使用的距离度量标准。例如
● ‘euclidean‘ 欧几里得距离
● ‘manhattan‘ 曼哈顿距离
详细,参考neighbors.DistancsMetric
metric_params : dict, optional (default = None)
采用的距离度量标准所需要的参数。通过字典方式传递参数。
n_jobs : int, optional (default = 1)
为近邻搜索运行的并行作业的数量。如果为-1,则并行作业数量设置为CPU核心数量。不影响 fit 方法。
模型方法:
fit(X, y) 拟合数据,学习模型
参数: X : {array-like, sparse matrix, BallTree, KDTree}
y : {array-like, sparse matrix}
get_params(deep=True) 获得该模型的设置参数
参数: deep : boolean, optional
如果为True,会返回模型的参数以及子对象模型
kneighbors(X=None, n_neighbors=None, return_distance=True)
寻找一个或一组点的最近邻。返回的是每个点的最近邻与该点的距离和最近邻的索引目录。
参数: X : array-like, shape (n_query, n_features), or (n_query, n_indexed) if metric == ‘precomputed’
要查询的点。如果没有提供,就是 fit 方法时,学习的点集。这种情况下,查询点不被认为是它自己的邻居。
n_neighbors : int
k值(默认为模型的k值)
return_distance : boolean, optional. Defaults to True.
如果为False,不会返回距离。
返回: dist : array
最近邻与查询点的距离。只有当return_distance=True时才返回。
ind : array
最近邻的索引目录。
kneighbors_graph(X=None, n_neighbors=None, mode=‘connectivity‘)
k近邻矩阵图
参数: X : array-like, shape (n_query, n_features), or (n_query, n_indexed) if metric == ‘precomputed’
要查询的点。如果没有提供,就是 fit 方法时,学习的点集。这种情况下,查询点不被认为是它自己的邻居。
n_neighbors : int
k值(默认为模型的k值)
mode : {‘connectivity’, ‘distance’}, optional
返回矩阵的类型。
● ‘connectivity’ :返回的是0,1矩阵
● ‘distance’:返回的是欧几里得距离矩阵
返回: A : sparse matrix in CSR format, shape = [n_samples, n_samples_fit]
CSR格式。需要调用toarray方法,才能直接看到矩阵图。矩阵的每行代表该方法的每个样例,每一列代表模型训练样本里的每个样例与该方法样本里的关系(如果mode
是‘connectivity’ ,则1代表就是最近邻;如果mode是‘distance’,则数字就代表是最近邻的欧几里得距离)
predict(X)
预测未知数据的类别。
参数: X : array-like, shape (n_query, n_features), or (n_query, n_indexed) if metric == ‘precomputed’
测试数据
返回: y : array of shape [n_samples] or [n_samples, n_outputs]
测试数据的预测类别
predict_proba(X)
返回未知数据属于每个类别的概率
参数: X : array-like, shape (n_query, n_features), or (n_query, n_indexed) if metric == ‘precomputed’
测试数据
返回: p : array of shape = [n_samples, n_classes], or a list of n_outputs
每行代表测试数据的每个样例,每列代表一个类别的概率。
score(X, y, sample_weight=None)
返回的是模型预测测试数据的精度
参数: X : array-like, shape = (n_samples, n_features)
测试数据
y : array-like, shape = (n_samples) or (n_samples, n_outputs)
对于X真实的类别
sample_weight : array-like, shape = [n_samples], optional
样本权重
返回: score : float
精度值
set_params(**params)
可以通过传入字典的方式,修改模型的参数值。
基于k近邻的回归。根据k近邻的平均数来得到预测值。
参数和方法可参考k近邻分类的参数和方法,基本一致。不同点为:
1、去掉了方法predict_proba(X)
2、score(X, y, sample_weight=None) 返回的不是精度,而是样本可决系数:
1-u/v,其中u为残差平方和,而v为真实值与真实值平均值的差平方和。最好的成绩是1,样本可决系数可以为负数。
标签:方法 array 设置 oid core param 权重 通过 概率
原文地址:https://www.cnblogs.com/fushengweixie/p/8973640.html