大数据运算模型 MapReduce 原理 2016-01-24 杜亦舒 MapReduce 是一个大数据集合的并行运算模型,由google提出,现在流行的hadoop中也使用了MapReduce作为计算模型 MapReduce 通俗解释 图书馆要清点图书数量,有10个书架,管理员为了加快统计速度,找 ...
分类:
其他好文 时间:
2017-01-08 03:55:05
阅读次数:
310
使用Hive转换、装载数据 1. Hive简介 (1)Hive是什么 Hive是一个数据仓库软件,使用SQL读、写、管理分布式存储上的大数据集。它建立在Hadoop之上,具有以下功能和特点: 通过SQL方便地访问数据,适合执行ETL、报表、数据分析等数据仓库任务。 提供一种机制,给各种各样的数据格式 ...
分类:
其他好文 时间:
2016-12-17 13:52:53
阅读次数:
284
在Clearspring,我们从事统计数据。统计一组不同元素且数量很大的数据集时,是一个挑战。 为了更好地理解已经明确基数的大数据集的挑战,我们假设你的日志文件包含16个字符的ID,并且你想统计不同ID的数量.例如: 4f67bfc603106cb2 这16个字符需要用128位来表示。6万5千个ID ...
分类:
其他好文 时间:
2016-12-17 01:33:42
阅读次数:
210
Hadoop分布式文件系统(HDFS)被设计成适合运行在通用硬件上的分布式文件系统,它提供高吞吐量来访问应用程序的数据,适合那些有着超大数据集的应用程序,那么在实际应用中我们如何来操作使用呢?一、HDFS操作方式:1、命令行操作–FsShell:$hdfsdfs2、其他的计算框架-如spark?.
分类:
其他好文 时间:
2016-12-16 23:42:48
阅读次数:
446
简介 RecyclerView是support-v7中用来替换ListView的组件。RecyclerView 小组件比 ListView 更高级且更具灵活性。 此小组件是一个用于显示庞大数据集的容器,可通过保持有限数量的视图进行非常有效的滚动操作。 如果您有数据集合,其中的元素将因用户操作或网络事 ...
分类:
移动开发 时间:
2016-10-22 18:07:44
阅读次数:
306
NumPy基础:数组和矢量计算 NumPy的ndarray:一种多维数组对象 该对象是一个快速灵活的大数据集容器。你可以利用这种数组对整块数据执行一些数学运算,其语法跟标量元素之间的运算一样 列表转换为数组 二维列表 数据类型 其他一些自动生成的数组 arange() ndarray的数据类型 使用 ...
分类:
编程语言 时间:
2016-09-27 19:35:50
阅读次数:
332
[hadoop@zb02 .ssh]$ scp authorized_keys hadoop@zb03:/home/hadoop/.ssh @@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@ WARNING: REMOTE HOS ...
分类:
其他好文 时间:
2016-09-20 10:25:51
阅读次数:
153
Apache Ignite内存数据组织是高性能的、集成化的以及分布式的内存平台,他可以实时地在大数据集中执行事务和计算,和传统的基于磁盘或者闪存的技术相比,性能有数量级的提升。 将数据存储在缓存中能够显著地提高应用的速度,因为缓存能够降低数据在应用和数据库中的传输频率。Apache Ignite允许 ...
分类:
数据库 时间:
2016-09-07 17:27:23
阅读次数:
330
深度学习 严恩·乐库 约书亚?本吉奥 杰弗里·希尔顿 摘要深度学习是计算模型,是由多个处理层学习多层次抽象表示的数据。这些方法极大地提高了语音识别、视觉识别、物体识别、目标检测和许多其他领域如药物发现和基因组学的最高水平。深学习发现复杂的结构,在大数据集,通过使用反向传播算法来说明如何一台机器应改变 ...
分类:
其他好文 时间:
2016-09-01 18:16:26
阅读次数:
1527
比对梯度下降和随机梯度下降: 梯度下降:每一次迭代耗时长,在大数据集上处理速度慢,对参数敏感性适中 随机梯度下降:每一次迭代耗时短,在大数据集上处理速度较快,但对参数非常敏感 随机梯度下降能更快地达到较大的对数似然值,但噪声更大 步长太小,收敛速度太慢;步长较大,震荡较大;步长异常大,不收敛 ...
分类:
其他好文 时间:
2016-08-15 12:46:22
阅读次数:
116