基本步骤: 1、训练素材分类: 我是参考官方的目录结构: 每个目录中放对应的文本,一个txt文件一篇对应的文章:就像下面这样 需要注意的是所有素材比例请保持在相同的比例(根据训练结果酌情调整、不可比例过于悬殊、容易造成过拟合(通俗点就是大部分文章都给你分到素材最多的那个类别去了)) 废话不多说直接上 ...
分类:
Web程序 时间:
2018-01-31 11:40:09
阅读次数:
256
代码主要来自:http://scikit-learn.org/stable/ 误差函数: 采用最小二平方 代码如下: 执行结果如下: ...
分类:
其他好文 时间:
2018-01-29 21:33:50
阅读次数:
236
最近邻分类 概念讲解 我们使用的是scikit learn 库中的neighbors.KNeighborsClassifier 来实行KNN. n_neighbors 是用来确定多数投票规则里的K值,也就是在点的周围选取K个值最为总体范围 weights : 这个参数很有意思,它的作用是在进行分类判 ...
分类:
编程语言 时间:
2018-01-28 19:06:57
阅读次数:
536
概念梳理 GBDT的别称 GBDT(Gradient Boost Decision Tree),梯度提升决策树。 GBDT这个算法还有一些其他的名字,比如说MART(Multiple Additive Regression Tree),GBRT(Gradient Boost Regression T ...
分类:
其他好文 时间:
2018-01-22 13:02:33
阅读次数:
330
MLlib中众多机器学习算法API在单一管道或工作流中更容易相互结合起来使用。管道的思想主要是受到scikit-learn库的启发。 ML API使用Spark SQL中的DataFrame作为机器学习的数据集。DataFrame不同的列可以分别存储文本,特征向量,真实的Lables,和预测值。 T ...
分类:
其他好文 时间:
2018-01-19 14:03:29
阅读次数:
172
去年在北京参加了一次由O'Reilly和Cloudera联合举办的大数据会议Strata Data Conference,并有幸获得了O'Reilly出版的Hands-On Machine Learning with Scikit-Learn and TensorFlow英文书,总体来说,这是一本不 ...
分类:
系统相关 时间:
2018-01-16 01:02:11
阅读次数:
494
1.先装对应的库。不能偷懒,都得装,不然飞不起来。 2.测试如下代码。 输出: 做到这里,咱们和scikit-learn算是打了个招呼,混个脸熟。 ...
分类:
其他好文 时间:
2018-01-11 15:52:05
阅读次数:
127
环境搭建过程挺麻烦...但终于是弄好了,先给一些过程中参考的比较重要的资料(找微软的机器学习资料是个人摸索经验,无任何借鉴): 1.如果嫌网上各种numpy、scipy等等包的安装教程麻烦的话就直接去:微软机器学习服务器进行下载安装,途中可能会遇到一些问题,主要是powershell的权限问题,可以 ...
(为了节约空间,打印结果常用“...”表示省略) 加载数据集 1. 加载sklearn自带的数据集 scikit learn有一些自带的标准数据集,例如用于分类的经典数据集iris和digits以及用于回归的boston house prices数据集。 这些自带的数据集一种是类似字典的对象,它保存 ...
分类:
其他好文 时间:
2018-01-01 16:57:00
阅读次数:
334
最近大四还有个必修:课程设计。选到的题目是 'Fisher辨别分析用于人脸数据维数约简的实现'。 然后在Scikit learn中找到了相关的python库: Dimensionality reduction using Linear Discriminant Analysis /********* ...
分类:
其他好文 时间:
2017-12-29 16:54:12
阅读次数:
212