机器学习算法-PCA降维 一、引言 在实际的数据分析问题中我们遇到的问题通常有较高维数的特征,在进行实际的数据分析的时候,我们并不会将所有的特征都用于算法的训练,而是挑选出我们认为可能对目标有影响的特征。比如在泰坦尼克号乘员生存预测的问题中我们会将姓名作为无用信息进行处理,这是我们可以从直观上比较好 ...
分类:
编程语言 时间:
2018-07-11 00:58:38
阅读次数:
190
菜鸟独白 用Python来玩转数据分析实在是太爽了,因为有强大的Pandas来处理数据非常方便,我个人对数据分析情有独钟,探索数据的秘密非常好玩!前段时间写过一篇小白学数据分析入门招式,但是进阶的部分上次没有来得及整理,今天分享给大家。 我们依然用比较有名的泰坦尼克数据集来做示例,通过对这个数据集的 ...
分类:
其他好文 时间:
2018-06-12 12:52:16
阅读次数:
218
菜鸟独白用Python来玩转数据分析实在是太爽了,因为有强大的Pandas来处理数据非常方便,我个人对数据分析情有独钟,探索数据的秘密非常好玩!前段时间写过一篇小白学数据分析入门招式,但是进阶的部分上次没有来得及整理,今天分享给大家。我们依然用比较有名的泰坦尼克数据集来做示例,通过对这个数据集的处理,来快速上手数据分析的常见招式和基本手法,让初学者可以快速上手数据分析!要点:数据的字符处理数据的过
分类:
其他好文 时间:
2018-06-12 12:16:42
阅读次数:
214
# coding: utf-8 # In[6]: # -*- coding: utf-8 -*- import urllib.request import os # In[7]: url="http://biostat.mc.vanderbilt.edu/wiki/pub/Main/DataSets... ...
分类:
其他好文 时间:
2018-06-05 00:46:59
阅读次数:
709
1 数据预览 1.1 head() 预览数据集的前面几条数据可以大致看看每个字段的值究竟长什么样。 1.2 info() 可以看每个字段有多少非空值,字段的类型是什么样的 1.3 describe() 可以大致描述每个整数或者浮点型的数值分布,看最小值,最大值和四分位数,可以大致了解数据的偏移情况。 ...
分类:
编程语言 时间:
2018-05-26 15:26:24
阅读次数:
178
最近一直断断续续的做这个泰坦尼克生存预测模型的练习,这个kaggle的竞赛题,网上有很多人都分享过,而且都很成熟,也有些写的非常详细,我主要是在牛人们的基础上,按照数据挖掘流程梳理思路,然后通过练习每一步来熟悉应用python进行数据挖掘的方式。 数据挖掘的一般过程是:数据预览——>数据预处理(缺失 ...
分类:
编程语言 时间:
2018-05-25 01:42:25
阅读次数:
300
本文利用KNIME基于Spark决策树模型算法,通过对泰坦尼克的包含乘客及船员的特征属性的训练数据集进行训练,得出决策树幸存模型,并利用测试数据集对模型进行测试。
分类:
系统相关 时间:
2018-05-09 16:05:02
阅读次数:
660
git: https://github.com/linyi0604/MachineLearning 数据集被我下载到本地,可以去我的git上拿数据集 XGBoost提升分类器 属于集成学习模型 把成百上千个分类准确率较低的树模型组合起来 不断迭代,每次迭代生成一颗新的树 下面 对泰坦尼克遇难预测使用 ...
分类:
编程语言 时间:
2018-05-08 17:33:14
阅读次数:
291
python3 学习使用随机森林分类器 梯度提升决策树分类 的api,并将他们和单一决策树预测结果做出对比 附上我的git,欢迎大家来参考我其他分类器的代码: https://github.com/linyi0604/MachineLearning ...
分类:
编程语言 时间:
2018-04-29 17:44:12
阅读次数:
253
使用python3 学习了决策树分类器的api 涉及到 特征的提取,数据类型保留,分类类型抽取出来新的类型 需要网上下载数据集,我把他们下载到了本地, 可以到我的git下载代码和数据集: https://github.com/linyi0604/MachineLearning ...
分类:
编程语言 时间:
2018-04-29 13:36:05
阅读次数:
333