数据挖掘基本概念数据挖掘定义最广为接受得到定义是,数据挖掘是数据“模型”的发现过程。而“模型”却可以有多种含义。1)统计建模统计学家认为数据挖掘就是统计模型的构建过程,而这个统计模型指的就是可见数据所遵从的总体分布。2)机器学习有些人将数据挖掘看成是机器学习的同义词。毫无疑问,一些数据挖掘方法中适当... ...
分类:
其他好文 时间:
2018-02-14 10:42:39
阅读次数:
199
Large scale machine learning Learning with large datasets 如果我们有一个低方差的模型,增加数据集的规模可以帮助你获得更好的结果。我们应该怎样应对一个有 100 万条记录的训练集? 以线性回归模型为例,每一次梯度下降迭代,我们都需要计算训练集的 ...
分类:
其他好文 时间:
2018-02-10 13:06:53
阅读次数:
210
# http://blog.csdn.net/github_36326955/article/details/54999627 python代码实现可参考: http://blog.csdn.net/dream_angel_z/article/details/46343597 ...
分类:
编程语言 时间:
2018-02-07 22:55:04
阅读次数:
638
import matplotlib.pyplot as pltimport numpy as npfrom sklearn import datasets,linear_modelfrom sklearn.metrics import mean_absolute_error,r2_score# Lo ...
分类:
其他好文 时间:
2018-02-05 23:22:33
阅读次数:
247
Spark的核心RDD (Resilient Distributed Datasets弹性分布式数据集) 原文链接:http://www.cnblogs.com/yjd_hycf_space/p/7681585.html 铺垫 主角 首先我们来思考一个问题吧:Spark的计算模型是如何做到并行的呢? ...
分类:
其他好文 时间:
2018-02-02 20:07:55
阅读次数:
157
多变量的线性回归问题 car.csv文件地址链接:https://pan.baidu.com/s/1pM4jem3 密码:e22s 谢谢观看! ...
分类:
其他好文 时间:
2018-01-21 14:55:16
阅读次数:
173
首先,我们要尊重原作者的劳动成果,给出原作者网页。 下载数据集 MH_01_easy.bag,原作者网页提供了链接,这里直接给出入口。 上篇随笔创建了工程 maplab_ws,并编译了maplab源码。把下载好的数据集拷到 maplab_ws 下备用。 打开命令行运行ros: roscore 新开一 ...
分类:
其他好文 时间:
2018-01-20 16:29:01
阅读次数:
426
UCI:加州大学欧文分校开放的经典数据集,被很多数据挖掘实验室采用。 http://archive.ics.uci.edu/ml/datasets.html CEIC:超过128个国家的经济数据,能精确查找GDP、进出口零售,销售等深度数据。 http://www.ceicdata.com/zh-h ...
分类:
其他好文 时间:
2018-01-17 22:29:55
阅读次数:
199
RDD(Resilient Distributed Datasets(弹性分布式数据集)) RDD从逻辑上看是一个抽象分布式数据集的概念,它的底层数据存储于集群中不同节点上的磁盘文件系统中,存储是按照分区(partition)方式进行存储;所有Spark操作都可以看成是一系列对RDD对象的操作,而R ...
分类:
其他好文 时间:
2018-01-11 15:23:10
阅读次数:
152
numpy,sklearn提供随机数据生成功能,我们可以自己生成适合某一种模型的数据,用随机数据来清洗,归一化,转换,然后选择模型与算法做拟合和预测。 1.numpy随机数据生成API numpy比较适合用来生产一些简单的抽样数据。API都在random类中,常见的API有: (1).rand(d0 ...
分类:
编程语言 时间:
2018-01-09 21:14:26
阅读次数:
222