先引入包,一般EDA需要引入如下包: 1 import numpy as np 2 import pandas as pd 3 import matplotlib.pyplot as plt 4 import seaborn as sns 5 plt.style.use('fivethirtyeig ...
分类:
其他好文 时间:
2017-10-28 20:29:32
阅读次数:
320
本文主要是使用【监督学习】实现一个图像分类器,目的是识别图片是猫还是狗。 从【数据预处理】到 【图片预测】实现一个完整的流程, 当然这个分类在 Kaggle 上已经有人用【迁移学习】(VGG,Resnet)做过了,迁移学习我就不说了,我自己用 Keras + Tensorflow 完整的实现了一遍。 ...
分类:
其他好文 时间:
2017-10-26 23:03:51
阅读次数:
408
1、csv简介 CSV (Comma Separated Values),即逗号分隔值(也称字符分隔值,因为分隔符可以不是逗号),是一种常用的文本 格式,用以存储表格数据,包括数字或者字符。很多程序在处理数据时都会碰到csv这种格式的文件,它的使用是比 较广泛的(Kaggle上一些题目提供的数据就是 ...
分类:
其他好文 时间:
2017-10-26 16:54:51
阅读次数:
171
一.材料准备 https://www.kaggle.com/c/titanic-gettingStarted/ 二.提出问题 生存率和哪些因素有关(性别,年龄,是否有伴侣,票价,舱位等级,包间,出发地点) 1.乘客的年龄和票价的分布 2.样本生存的几率是多少 3.乘客的性别比例 4.乘客的舱位分布 ...
分类:
其他好文 时间:
2017-10-17 17:29:00
阅读次数:
342
视频地址:https://pan.baidu.com/s/1b25yNG 机器学习比赛入门条件 1.过的去的code能力:Leetcode平台 leetcode平台可以帮助我们提高基本的算法实现能力,比如写一个冒泡排序方法,写出来的代码简洁高效 2.参与比赛:Data Fountain,Kaggle ...
分类:
其他好文 时间:
2017-10-10 23:16:55
阅读次数:
224
# -*- coding: utf-8 -*- """ Created on Mon Oct 9 14:05:41 2017 @author: lenovo """ import numpy as np import pandas as pd #载入数据,合并测试集和训练集做特征处理 data_tr... ...
分类:
其他好文 时间:
2017-10-09 17:42:21
阅读次数:
336
1、csv简介 CSV (Comma Separated Values),即逗号分隔值(也称字符分隔值,因为分隔符可以不是逗号),是一种常用的文本 格式,用以存储表格数据,包括数字或者字符。很多程序在处理数据时都会碰到csv这种格式的文件,它的使用是比 较广泛的(Kaggle上一些题目提供的数据就是 ...
分类:
其他好文 时间:
2017-10-03 12:03:30
阅读次数:
810
1.关于年龄Age 除了利用平均数来填充,还可以利用正态分布得到一些随机数来填充,首先得到已知年龄的平均数mean和方差std,然后生成[ mean-std, mean+std ]之间的随机数,然后利用这些随机值填充缺失的年龄。 2.关于票价Fare 预处理:训练集不缺,测试集缺失1个,用最高频率值 ...
分类:
其他好文 时间:
2017-10-01 22:58:59
阅读次数:
149
建立神经网络模型,下面要建立的模型如下: (上图来源:训练网络时,打开tensorboard即可观察网络结构,在下一节模型训练的时候会讲到) 下面为具体步骤: Step 0:导入相关库 Step 1:定义网络结构 函数介绍: 1)tf.variable_scope 通过 tf.get_variabl ...
分类:
其他好文 时间:
2017-09-30 10:11:59
阅读次数:
312
上一步建立好模型之后,现在就可以训练模型了。 主要代码如下: 一些函数说明如下: 1)tf.summary.merge_all 作用:Merges all summaries collected in the default graph. 2)tf.summary.FileWriter 作用:Wri ...
分类:
其他好文 时间:
2017-09-30 10:10:34
阅读次数:
338