搜索关键字：kettle hbase，搜索到4514个结果！码迷,mamicode.com！

淘宝实时数据传输平台: TimeTunnel介绍

作者在工作中遇到了类似流式数据实时接入的业务场景，所以对淘宝的实时数据仓库这一块做了一些调研和了解。本文从业务场景和设计上介绍了淘宝的TimeTunnel工具，文中的图片来自淘宝数据仓库团队交流过程中的sildes，也参考了一些相关文档。业务背景 TimeTunnel（简称TT）是一个基于thrift通讯框架搭建的实时数据传输平台，具有高性能、实时性、顺序性、高可靠性、高可用性、可扩展性等特点（基于Hbase）。目前TimeTunnel在阿里巴巴广泛的应用于日志收集、数据监控、广告反馈、量子统计、数据...

分类：其他好文时间：2014-05-22 10:58:59 阅读次数：334

hadoop家族的各个成员

这篇文章不提原理，讲讲hadoop及其周边项目的作用。 hadoop这个词已经流行好多年了，一提到大数据就会想到hadoop，那么hadoop的作用是什么呢？官方定义：hadoop是一个开发和运行处理大规模数据的软件平台。核心词语是平台，也就是说我们有大量的数据，又有好几个电脑，我们知道应该把处理数据的任务分解到各个电脑上，但是不知道怎样分配任务，怎样回收结果，hadoop大概就帮助我们做了...

分类：其他好文时间：2014-05-22 10:34:39 阅读次数：288

hbase是否能取代mysql

代志远早年就职网易研究院从事MapReduce与DFS系统的自主研发，后加入支付宝数据平台负责Hadoop与HBase体系的架构设计与二次研发，支付宝流计算与分布式搜索系统的设计和研发，后成为支付宝海量计算体系架构师兼支付宝三代架构成员。现就转战于阿里巴巴集团-CDO-海量数据部门，负责创新性项目的研究和跟进，目前专注于Google第二代数据库产品MegaStore的研究和在阿里的落地。在...

分类：数据库时间：2014-05-21 17:04:40 阅读次数：393

Hadoop家族学习路线图

主要介绍Hadoop家族产品，常用的项目包括Hadoop, Hive, Pig, HBase, Sqoop, Mahout, Zookeeper, Avro, Ambari, Chukwa，新增加的项目包括，YARN, Hcatalog, Oozie, Cassandra, Hama, Whirr,...

分类：其他好文时间：2014-05-21 05:55:45 阅读次数：280

HBase Java API使用（一）

前言1. 创建表：（由master完成）首先需要获取master地址（master启动时会将地址告诉zookeeper）因而客户端首先会访问zookeeper获取master的地址client和master通信，然后有master来创建表（包括表的列簇，是否cache，设置存储的最大版本数，是否压缩...

分类：编程语言时间：2014-05-19 14:23:43 阅读次数：392

hbase源码系列（十一）Put、Delete在服务端是如何处理？

在讲完之后HFile和HLog之后，今天我想分享是Put在Region Server经历些了什么？相信前面看了《HTable探秘》的朋友都会有印象，没看过的建议回去先看看，Put是通过MultiServerCallable来提交的多个Put，好，我们就先去这个类吧，在call方法里面，我们找到了这句...

分类：其他好文时间：2014-05-17 22:54:25 阅读次数：397

hbase shell常用命令

hbase shell常用命令...

分类：其他好文时间：2014-05-15 23:28:43 阅读次数：288

数据导入HBase最常用的三种方式及实践分析

数据导入HBase最常用的三种方式及实践分析摘要：要使用Hadoop，需要将现有的各种类型的数据库或数据文件中的数据导入HBase。一般而言，有三种常见方式：使用HBase的API中的Put方法，使用HBase 的bulk load工具和使用定制的MapReduce Job方式。本文均有详细描述。【编者按】要使用Hadoop，数据合并至...

分类：其他好文时间：2014-05-15 18:15:19 阅读次数：495

非结构化数据的存储与查询

当今信息化时代充斥着大量的数据。海量数据存储是一个必然的趋势。然而数据如何的存储和查询，尤其是当今非结构化数据的快速增长，对其数据的存储，处理，查询。使得如今的关系数据库存储带来了巨大的挑战。分布存储技术是云计算的基础,主要研究如何存储、组织和管理数据中心上的大规模海量数据.由于面临的数据规模和用户规模更加庞大,在可扩展性、容错性以及成本控制方面面临着更加严峻的挑战[1]。 ...

分类：其他好文时间：2014-05-15 18:13:55 阅读次数：438

Kettle同步设计思路

最近在整理之前的同步的kettle代码，现把之前的kettle同步的思路记录在此。 1.同步流程图，下图是同步的整个流程图 2.外部的数据表，根据业务逻辑更新到服务器端的业务表，下图是其中的一个示例图：这个的思路是：获取最新需同步的数据、分别查出药品分类ID、药品分类与分类关联ID以及药品ID（不存在，则生成新的UUID）、查询数据库中药品分类ID的记录数是否存在（即是否不...

分类：其他好文时间：2014-05-15 09:02:58 阅读次数：415

共4514条上一页 1 ... 444 445 446 447 448 ... 452 下一页

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)