参考Kernels里面评论较高的一篇文章,整理作者解决整个问题的过程,梳理该篇是用以了解到整个完整的建模过程,如何思考问题,处理问题,过程中又为何下那样或者这样的结论等! 最后得分并不是特别高,只是到34%,更多是整理一个解决问题的思路,另外前面三个大步骤根据思维导图看即可,代码跟文字等从第四个步骤 ...
分类:
编程语言 时间:
2018-09-24 16:50:19
阅读次数:
218
1.实验背景 本次实验是Kaggle上的一个入门比赛——Titanic: Machine Learning from Disaster。比赛选择了泰坦尼克号海难作为背景,并提供了样本数据及测试数据,要求我们根据样本数据内容建立一个预测模型,对于测试数据中每个人是否获救做个预测。样本数据包括891条乘 ...
分类:
其他好文 时间:
2018-09-24 14:43:10
阅读次数:
275
{{uploading image 136672.png(uploading...)}} ...
分类:
其他好文 时间:
2018-09-20 16:15:44
阅读次数:
432
引言 在这篇文章中,我们将探讨决策树模型的最重要参数,以及它们如何防止过度拟合和欠拟合,并且将尽可能少地进行特征工程。我们将使用来自kaggle的泰坦尼克号数据。 导入数据 查看缺失值 把Cabin’, ‘Name’ and ‘Ticket’移除,并且填充缺失值,并处理分类型变量。 25%用作测试集 ...
分类:
其他好文 时间:
2018-09-14 01:04:26
阅读次数:
290
https://baijiahao.baidu.com/s?id=1595331607299762312&wfr=spider&for=pc 雷锋网 AI 研习社消息,Kaggle 上 Corporación Favorita 主办的商品销量预测比赛于两个月前落下帷幕,此次比赛的奖金池共计三万美元, ...
分类:
其他好文 时间:
2018-09-10 15:36:12
阅读次数:
178
原文:https://www.toutiao.com/i6597192035214557710/ 几种新的特征转换思维: 1.数据转换成图像 Kaggle上有一个微软恶意软件分类挑战,它的数据集包含一组已知的恶意软件文件,对于每个文件,原始数据包含文件二进制内容的十六进制表示。此前,参赛者在网上从没 ...
分类:
其他好文 时间:
2018-09-05 11:39:55
阅读次数:
144
观点1:XGBoost要比深度学习更重要。2016年Kaggle大赛29个获奖方案中,17个用了XGBoost。因为它好用,在很多情况下都更为可靠、灵活,而且准确;在绝大多数的回归和分类问题上,XGBoost的实际表现都是顶尖的。 观点2:针对非常要求准确度的那些问题,XGBoost确实很有优势,同 ...
分类:
其他好文 时间:
2018-08-28 11:24:47
阅读次数:
246
一、项目目录 (一)数据加载 基础统计 特征分类 基本分布(scatter) (二)数据分析 正态性检验 偏离度分析 (hist | scatter) 峰度分析 (hist | scatter) 分散度分析 (box) 特征本身分散度 SalePrice 的分散度 方差齐次检验 方差分析 (bar) ...
分类:
其他好文 时间:
2018-08-25 21:21:49
阅读次数:
585
import pandas as pd import numpy as np #用pandas载入csv训练数据,并解析第一列为日期格式 train=pd.read_csv('../input/train.csv', parse_dates = ['Dates']) test=pd.read_csv... ...
分类:
其他好文 时间:
2018-08-20 20:40:02
阅读次数:
1079
从Kaggle官网下载数据:train 、test。 赛事描述: 泰坦尼克号的沉没是历史上最臭名昭著的沉船之一。1912年4月15日,泰坦尼克号在处女航时与冰山相撞沉没,2224名乘客和船员中有1502人遇难。这一耸人听闻的悲剧震惊了国际社会,并导致更好的船舶安全法规。船难造成如此巨大的人员伤亡的原 ...
分类:
其他好文 时间:
2018-08-14 21:10:17
阅读次数:
765