六、网格搜索与 K 邻近算法中更多的超参数 七、数据归一化 Feature Scaling 解决方案:将所有的数据映射到同一尺度 八、scikit-learn 中的 Scaler preprocessing.py 九、更多有关 K 近邻算法的思考 优点: 解决分类问题 天然可以解决多分类问题 思想简 ...
分类:
编程语言 时间:
2018-08-25 20:07:22
阅读次数:
141
一、K近邻算法基础 KNN K近邻算法 K-Nearest Neighbors 思想极度简单 应用数学知识少 (近乎为零) 效果好(缺点?) 可以解释机器学习算法使用过程中很多细节问题 更完整的刻画机器学习应用的流程 kNN的过程 二、scikit-learn 中的机器学习算法封装KNN/KNNN. ...
分类:
编程语言 时间:
2018-08-25 13:57:39
阅读次数:
268
python3的sklearn库中有偏最小二乘法。 可以参见下面的库说明:http://scikit-learn.org/stable/modules/generated/sklearn.cross_decomposition.PLSRegression.html 程序来源:来源:https://b ...
分类:
编程语言 时间:
2018-08-23 12:03:29
阅读次数:
198
https://blog.csdn.net/qq_34739497/article/details/80508262 Yellowbrick 是一套名为「Visualizers」的视觉诊断工具,它扩展了 Scikit-Learn API 以允许我们监督模型的选择过程。简而言之,Yellowbrick ...
分类:
其他好文 时间:
2018-08-21 20:15:57
阅读次数:
205
show the code: 参考的是sklearn中的样例: Gradient Boosting regression — scikit-learn 0.19.2 documentation 画出的图如下所示: ...
分类:
其他好文 时间:
2018-08-15 20:28:01
阅读次数:
709
一、高斯核函数、高斯函数 μ:期望值,均值,样本平均数;(决定告诉函数中心轴的位置:x = μ) σ2:方差;(度量随机样本和平均值之间的偏离程度:, 为总体方差, 为变量, 为总体均值, 为总体例数) σ:标准差;(反应样本数据分布的情况:σ 越小高斯分布越窄,样本分布越集中;σ 越大高斯分布越宽 ...
分类:
其他好文 时间:
2018-08-13 19:38:54
阅读次数:
2933
sklearn——train_test_split 随机划分训练集和测试集 sklearn.model_selection.train_test_split随机划分训练集和测试集 官网文档:http://scikit-learn.org/stable/modules/generated/sklear ...
分类:
其他好文 时间:
2018-08-13 10:49:00
阅读次数:
214
一、基础理解 Hard Margin SVM 和 Soft Margin SVM 都是解决线性分类问题,无论是线性可分的问题,还是线性不可分的问题; 和 kNN 算法一样,使用 SVM 算法前,要对数据做标准化处理; 原因:SVM 算法中设计到计算 Margin 距离,如果数据点在不同的维度上的量纲 ...
分类:
其他好文 时间:
2018-08-12 21:30:47
阅读次数:
7404
主要可以参考下面几个链接: 1.sklearn文本特征提取 2.使用scikit-learn tfidf计算词语权重 3.sklearn官方中文文档 4.sklearn.feature_extraction.text.CountVectorizer 补充一下:CounterVectorizer()类 ...
分类:
其他好文 时间:
2018-08-10 12:26:06
阅读次数:
392
roc曲线是机器学习中十分重要的一种学习器评估准则,在sklearn中有完整的实现,api函数为sklearn.metrics.roc_curve(params)函数。 官方接口说明:http://scikit-learn.org/stable/modules/generated/sklearn.m ...
分类:
其他好文 时间:
2018-08-07 23:50:27
阅读次数:
2368