# coding: utf-8 # In[19]: # 0.78468 # In[20]: import numpy as np import pandas as pd import warnings warnings.filterwarnings('ignore') from sklearn im... ...
分类:
其他好文 时间:
2018-04-23 16:34:28
阅读次数:
200
四、算法选择 这一步骤让我很兴奋,终于谈到算法了,虽然没代码、没公式。因为教程君表示并不想过深的去探讨算法细节,于是着重于从算法的应用场景、算法的缺点、如何选择算法来纵向展开。 我们的训练模型一般分为监督学习、无监督学习以及强化学习三种。 教程中只提到了前两种,而训练算法分为回归、分类以及聚类。其中 ...
分类:
系统相关 时间:
2018-04-22 20:00:18
阅读次数:
199
该篇解释数据清理。这些基础我觉得与数模竞赛过程都是差不多的。 如文中所说:The first step to data cleaning is removing unwanted observations from your dataset.(数据清理的第一步是从数据集中删除不需要的观察数据。) T ...
分类:
其他好文 时间:
2018-04-15 16:53:06
阅读次数:
222
下载地址:网盘下载 内容简介 · · · · · · 本书面向所有对机器学习与数据挖掘的实践及竞赛感兴趣的读者,从零开始,以Python编程语言为基础,在不涉及大量数学模型与复杂编程知识的前提下,逐步带领读者熟悉并且掌握当下最流行的机器学习、数据挖掘与自然语言处理工具,如Scikitlearn、N ...
分类:
编程语言 时间:
2018-04-15 14:58:03
阅读次数:
193
What is Data Leakage¶ Data leakage is one of the most important issues for a data scientist to understand. If you don't know how to prevent it, leakag ...
分类:
其他好文 时间:
2018-04-14 16:28:48
阅读次数:
209
The Cross-Validation Procedure In cross-validation, we run our modeling process on different subsets of the data to get multiple measures of model qua ...
分类:
其他好文 时间:
2018-04-14 12:46:15
阅读次数:
281
# Most scikit-learn objects are either transformers or models. # Transformers are for pre-processing before modeling. The Imputer class (for filling i ...
分类:
其他好文 时间:
2018-04-14 12:43:04
阅读次数:
174
假期闲着无聊,做了一下Kaggle练手的项目--预测泰坦尼克号乘客的存活情况。对于一些函数和算法,刚开始也是懵懵懂懂的,但通过自己查资料,还是明白了许多,我会把参考资料的网址放在需要查看的地方。 我们的整个流程如下: ①数据预处理:数据清洗、可视化、标签化 ②分割训练数据 ③随机森林分类器及其参数调 ...
分类:
其他好文 时间:
2018-04-07 11:15:37
阅读次数:
1775
1、什么是猫狗大战;数据集来源于Kaggle(一个为开发商和数据科学家提供举办机器学习竞赛、托管数据库、编写和分享代码的平台),原数据集有12500只猫和12500只狗,分为训练、测试两个部分。2、什么是Knn算法:K最近邻(k-Nearest Neighbor,KNN)基本思想:如果一个样本在特征... ...
分类:
编程语言 时间:
2018-03-18 20:16:14
阅读次数:
603
集成学习 Ensemble learning 中文名叫做集成学习,它并不是一个单独的机器学习算法,而是将很多的机器学习算法结合在一起,我们把组成集成学习的算法叫做“个体学习器”。在集成学习器当中,个体学习器都相同,那么这些个体学习器可以叫做“基学习器”。 个体学习器组合在一起形成的集成学习,常常能够 ...
分类:
其他好文 时间:
2018-03-13 22:50:51
阅读次数:
590