17.1大型数据集的学习 首先通过学习曲线判断是否增大数据集有效: 高方差时(交叉验证集误差减去训练集误差大时)增加数据集可以提高系统。下图中左图增加数据集有效,右图无效。 17.2随机梯度下降法 随机梯度下降法是只使用一个样本来迭代,其损失函数为: 迭代过程为: 特点: (1)计算量小,迭代速度快 ...
分类:
其他好文 时间:
2018-07-07 17:45:50
阅读次数:
201
一.Hadoop介绍 Hadoop实现了一个分布式文件系统(Hadoop Distributed File System),简称HDFS。HDFS有高容错性的特点,并且设计用来部署在低廉的硬件上;而且它提供高吞吐量来访问应用程序的数据,适合那些有着超大数据集的应用程序。Hadoop的框架最核心的设计 ...
分类:
其他好文 时间:
2018-06-22 21:44:10
阅读次数:
274
本文主要介绍饿了么大数据团队如何通过对计算引擎入口的统一,降低用户接入门槛;如何让用户自助分析任务异常及失败原因,以及如何从集群产生的任务数据本身监控集群计算/存储资源消耗,监控集群状况,监控异常任务等。 如果你想了解大数据的学习路线,想学习大数据知识以及需要免费的学习资料可以加群:78478943 ...
分类:
其他好文 时间:
2018-06-21 20:14:45
阅读次数:
158
不多说,直接上干货! 为什么要写这么一篇博文呢? 是因为啊,对于Hue不同版本之间,其实,差异还是相对来说有点大的,具体,大家在使用的时候亲身体会就知道了,比如一些提示和界面。 下载版本: cdh版本 假设,我已经安装了如下的一个Hue版本 CDH版本大数据集群下搭建Hue(hadoop-2.6.0 ...
分类:
其他好文 时间:
2018-06-18 18:26:07
阅读次数:
266
CDH前端CM监控不正常(未解决) Request to the Service Monitor failed. This may cause slow page responses. View the status of the Service Monitor. Request to the Ho ...
分类:
其他好文 时间:
2018-06-15 12:53:57
阅读次数:
1432
1. 前言 Druid 的目标是提供一个能够在大数据集上做实时数据摄入与查询的平台,然而对于大多数系统而言,提供数据的快速摄入与提供快速查询是难以同时实现的两个指标。例如对于普通的RDBMS,如果想要获取更快的查询速度,就会因为创建索引而牺牲掉写入的速度,如果想要更快的写入速度,则索引的创建就会受到 ...
分类:
其他好文 时间:
2018-06-11 20:28:12
阅读次数:
183
笔者安装CDH集群是参照官方文档:https://www.cloudera.com/documentation/enterprise/latest/topics/cm_ig_install_path_b.html 1.在集群中所有服务器(包含CM管理节点和各个agent节点)中安装JDK 2.安装m ...
分类:
其他好文 时间:
2018-06-05 21:16:49
阅读次数:
234
数据库整合的限制注意: Confluence 自带的 XML 方式导出方法并不适用于备份和整合大数据集。这里有一些第三方的数据库工具你可以使用能够帮助你对大数据集进行备份和整合。如果你在选择正确工具的方面需要帮助,或者你需要对整合整个过程需要帮助,你可以联系 Atlassian Experts 来获得相关的指导。数据库整合有下面 2 种方法可以帮助你对对数据进行整合,这两种方法在下面的内容中进行描
分类:
数据库 时间:
2018-06-05 10:19:32
阅读次数:
213
不多说,直接上干货! 很多同行,也许都知道,对于我们大数据搭建而言,目前主流,分为Apache 和 Cloudera 和 Ambari。 后两者我不多说,是公司必备和大多数高校科研环境所必须的! 分别,详情见我如下的博客 Cloudera安装搭建部署大数据集群(图文分五大步详解)(博主强烈推荐) A ...
分类:
系统相关 时间:
2018-05-31 13:21:23
阅读次数:
255
大数据领域两大最主流集群管理工具Ambari和Cloudera Manger Cloudera安装搭建部署大数据集群(图文分五大步详解)(博主强烈推荐) Ambari安装搭建部署大数据集群(图文分五大步详解)(博主强烈推荐) 前期博客 CDH版本大数据集群下搭建Hue(hadoop-2.6.0-cd ...
分类:
其他好文 时间:
2018-05-31 13:18:44
阅读次数:
878