Dataset
每年高中生和大学生都会申请进入到各种各样的高校和事业单位中去。每个学生都有一组独一无二的考试分数,成绩,和背景。录取委员会根据这个决定接受或拒绝这些申请者。在这种情况下一个二进制分类算法可用于接受或拒绝申请。逻辑回归是一个合适的方法,我们将在这个任务中解决这个问题数据集admissions.csv包含了1000个申请者的信息,特征如下: gre - Graduate Recor...
分类:
其他好文 时间:
2016-04-29 18:17:31
阅读次数:
690
Dataset
在NBA的媒体报道,体育记者通常集中在少数几个球员。由于我们的数据科学的帽子,我们不禁感到一阵怀疑为什么这个球员与其他球员不一样。那么就使用数据科学进一步探索该这个问题。 本文的数据集nba_2013.csv是2013 - 2014赛季的NBA球员的表现。player – name of the player(名字)
pos – the position of the playe...
分类:
其他好文 时间:
2016-04-29 17:44:15
阅读次数:
1417
Dataset
比萨斜塔是意大利最大的旅游景点之一。几百年来这座塔慢慢靠向一边,最终达到5.5度的倾斜角度,在顶端水平偏离了近3米。年度数据pisa.csv文件记录了从1975年到1987年测量塔的倾斜,其中lean代表了偏离的角度。在这个任务,我们将尝试使用线性回归来估计倾斜率以及解释其系数和统计数据。
# 读取数据
import pandas
import matplotlib.pyplot...
分类:
其他好文 时间:
2016-04-29 17:43:46
阅读次数:
257
Dataset
本文的数据集pga.csv包含了职业高尔夫球手的发球统计信息,包含两个属性:accuracy 和 distance。accuracy 精确度描述了命中球道( fairways hit)的比例,Distances 描述的是发球的平均距离。我们的目的是用距离来预测命中率。在高尔夫中,一个人发球越远,那么精度会越低。对于很多机器学习算法来说,输入数据会先进行一些预处理,比如规范化,因为...
分类:
其他好文 时间:
2016-04-29 17:32:36
阅读次数:
636
Dataset
决策树的一个优点是它可以处理变量之间有非线性关系的数据,而这种数据用前面的线性回归是不能做的。本文的数据集是美国1994年的个人收入信息,这个数据还包含了婚姻状况,年龄以及工作类型等等。目标是要预测他们每年的收入与50k的关系{50:1}
import pandas
income = pandas.read_csv("income.csv")
print(inco...
分类:
其他好文 时间:
2016-04-29 16:34:09
阅读次数:
507
Dataset
本文的任务是学习计算机在内存中如何存储一个值。本文的数据集sentences_cia.csv是中央情报局备忘录的一个摘录,描述了酷刑和其他秘密活动的细节。数据格式如下:
year,statement,,,
1997,”The FBI information included that al-Mairi’s brother “”traveled to Afghani...
分类:
其他好文 时间:
2016-04-29 10:37:27
阅读次数:
197
(一)Noise会不会对VC bound产生影响? 答案是不会。 当信号中加入了Noise,其实对我们之前学过的内容不产生任何本质上的影响。 之前《机器学习真的起作用吗?》中的分析是基于:training dataset D的来源是:(x,f(x))。其中x从服从某一概率分布P。 现在noise对数 ...
分类:
其他好文 时间:
2016-04-27 15:38:37
阅读次数:
190
一、问题定位
在使用dbunit做DAO的单元测试时,抛出了一个org.dbunit.dataset.DataSetException: java.net.MalformedURLException异常,如下图,
可以看到问题出现在我写的TestDbUnit的49行,再看源代码
第49行是这一句 IDataset ds = new FlatXmlDataSet(file...
分类:
数据库 时间:
2016-04-26 22:03:47
阅读次数:
206
Dataset
本文的数据集包含了各种与汽车相关的信息,如点击的位移,汽车的重量,汽车的加速度等等信息,我们将通过这些信息来预测汽车的来源:北美,欧洲或者亚洲,这个问题中类标签有三个,不同于之前的二元分类问题。由于这个数据集不是csv文件,而是txt文件,并且每一列的没有像csv文件那样有一个行列索引(不包含在数据本身里面),而txt文件只是数据。因此采用一个通用的方法read_table()来...
分类:
其他好文 时间:
2016-04-26 20:45:28
阅读次数:
182
Dataset
每年高中生和大学生都会申请进入到各种各样的高校和事业单位中去。每个学生都有一组独一无二的考试分数,成绩,和背景。录取委员会根据这个决定接受或拒绝这些申请者。在这种情况下一个二进制分类算法可用于接受或拒绝申请。逻辑回归是一个合适的方法,我们将在这个任务中解决这个问题数据集admissions.csv包含了1000个申请者的信息,特征如下: gre - Graduate Recor...
分类:
其他好文 时间:
2016-04-26 20:33:40
阅读次数:
569