搜索关键字：大数据集，搜索到238个结果！码迷,mamicode.com！

大数据运算模型 MapReduce 原理

大数据运算模型 MapReduce 原理 2016-01-24 杜亦舒 MapReduce 是一个大数据集合的并行运算模型，由google提出，现在流行的hadoop中也使用了MapReduce作为计算模型 MapReduce 通俗解释图书馆要清点图书数量，有10个书架，管理员为了加快统计速度，找 ...

分类：其他好文时间：2017-01-08 03:55:05 阅读次数：310

基于Hadoop生态圈的数据仓库实践 —— ETL

使用Hive转换、装载数据 1. Hive简介（1）Hive是什么 Hive是一个数据仓库软件，使用SQL读、写、管理分布式存储上的大数据集。它建立在Hadoop之上，具有以下功能和特点：通过SQL方便地访问数据，适合执行ETL、报表、数据分析等数据仓库任务。提供一种机制，给各种各样的数据格式 ...

分类：其他好文时间：2016-12-17 13:52:53 阅读次数：284

大数据计算：如何仅用1.5KB内存为十亿对象计数

在Clearspring，我们从事统计数据。统计一组不同元素且数量很大的数据集时，是一个挑战。为了更好地理解已经明确基数的大数据集的挑战，我们假设你的日志文件包含16个字符的ID,并且你想统计不同ID的数量.例如: 4f67bfc603106cb2 这16个字符需要用128位来表示。6万5千个ID ...

分类：其他好文时间：2016-12-17 01:33:42 阅读次数：210

Hadoop核心组件：四步通晓HDFS

Hadoop分布式文件系统(HDFS)被设计成适合运行在通用硬件上的分布式文件系统，它提供高吞吐量来访问应用程序的数据，适合那些有着超大数据集的应用程序，那么在实际应用中我们如何来操作使用呢？一、HDFS操作方式：1、命令行操作–FsShell：$hdfsdfs2、其他的计算框架-如spark?.

分类：其他好文时间：2016-12-16 23:42:48 阅读次数：446

Android的RecyclerView

简介 RecyclerView是support-v7中用来替换ListView的组件。RecyclerView 小组件比 ListView 更高级且更具灵活性。此小组件是一个用于显示庞大数据集的容器，可通过保持有限数量的视图进行非常有效的滚动操作。如果您有数据集合，其中的元素将因用户操作或网络事 ...

分类：移动开发时间：2016-10-22 18:07:44 阅读次数：306

《利用Python进行数据分析》第4章学习笔记

NumPy基础：数组和矢量计算 NumPy的ndarray：一种多维数组对象该对象是一个快速灵活的大数据集容器。你可以利用这种数组对整块数据执行一些数学运算，其语法跟标量元素之间的运算一样列表转换为数组二维列表数据类型其他一些自动生成的数组 arange（） ndarray的数据类型使用 ...

分类：编程语言时间：2016-09-27 19:35:50 阅读次数：332

大数据集群ssh登录其他机器失败 RSA host key for zb03 has changed and you have requested strict checking. Host key verification failed.

[hadoop@zb02 .ssh]$ scp authorized_keys hadoop@zb03:/home/hadoop/.ssh @@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@ WARNING: REMOTE HOS ...

分类：其他好文时间：2016-09-20 10:25:51 阅读次数：153

分布式数据库缓存系统Apache Ignite

Apache Ignite内存数据组织是高性能的、集成化的以及分布式的内存平台，他可以实时地在大数据集中执行事务和计算，和传统的基于磁盘或者闪存的技术相比，性能有数量级的提升。将数据存储在缓存中能够显著地提高应用的速度，因为缓存能够降低数据在应用和数据库中的传输频率。Apache Ignite允许 ...

分类：数据库时间：2016-09-07 17:27:23 阅读次数：330

[译]深度学习(Yann LeCun)

深度学习严恩·乐库约书亚?本吉奥杰弗里·希尔顿摘要深度学习是计算模型，是由多个处理层学习多层次抽象表示的数据。这些方法极大地提高了语音识别、视觉识别、物体识别、目标检测和许多其他领域如药物发现和基因组学的最高水平。深学习发现复杂的结构，在大数据集，通过使用反向传播算法来说明如何一台机器应改变 ...

分类：其他好文时间：2016-09-01 18:16:26 阅读次数：1527

ML_Scaling to Huge Datasets & Online Learning

比对梯度下降和随机梯度下降：梯度下降：每一次迭代耗时长，在大数据集上处理速度慢，对参数敏感性适中随机梯度下降：每一次迭代耗时短，在大数据集上处理速度较快，但对参数非常敏感随机梯度下降能更快地达到较大的对数似然值，但噪声更大步长太小，收敛速度太慢；步长较大，震荡较大；步长异常大，不收敛 ...

分类：其他好文时间：2016-08-15 12:46:22 阅读次数：116

共238条上一页 1 ... 13 14 15 16 17 ... 24 下一页

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)