“Stream”是Trident中的核心数据模型,它被当做一系列的batch来处理。在Storm集群的节点之间,一个stream被划分成很多partition(分区),对流的操作(operation)是在每个partition上并行进行的。
注:
①“Stream”是Trident中的核心数据模型:有些地方也说是TridentTuple,没有个标准的说法。
②一个stream被划分成很多pa...
一、特殊编码:
自从Redis 2.2之后,很多数据类型都可以通过特殊编码的方式来进行存储空间的优化。其中,Hash、List和由Integer组成的Sets都可以通过该方式来优化存储结构,以便占用更少的空间,在有些情况下,可以省去9/10的空间。
这些特殊编码对于Redis的使用而言是完全透明的,事实上,它只是CPU和内存之间的一个交易而言。如果内存使用率方面高一些,那么在操作数据时...
分类:
其他好文 时间:
2015-05-29 18:15:33
阅读次数:
160
Hive 元数据存储
Hive 将元数据存储在 RDBMS中,有三种模式可以连接到数据库:
Single User Mode: 此模式连接到一个 In-memory 的数据库 Derby,一般用于 Unit
Test。
Multi User Mode:通过网络连接到一个数据库中,是最经常使用到的模式。
RemoteServer Mode:用于非Jav...
分类:
其他好文 时间:
2015-05-29 18:15:19
阅读次数:
151
HMaster的RPC接口,分两类:
HMaster与RegionServer通讯接口,总共只有两个
-->regionServerStartup: 当regionserver启动时会调用该接口
-->将发请起求的RS的信息写入serverInfo,注意这里的hostname为master所识别的hostname,而非RS告诉master的
-->调用serverMan...
分类:
其他好文 时间:
2015-05-29 18:15:12
阅读次数:
140
Docker 存储池扩容 如果在 CentOS 、 REHL 、 Fedor 或者其他默认没有 AUFS 支持的 Linux 发行版上使用 Docker ,你可能需要用到 Device Mapper 的存储插件。将这个插件设置为默认,它会把你所有的容器存储到一个 100G 的简短文件中,并且限制每个容器最大为
10GB 。这篇文章将展示如何突破这个限制,并且把容器的存储移动到一个指定的分区或者...
分类:
其他好文 时间:
2015-05-29 18:14:44
阅读次数:
183
根类
图12展示了Scala类的层次结构。层次结构的根是类Any。Scala执行环境中的每个类都直接或间接地继承自该类。类Any有两个直接子类:AnyRef和AnyVal。
子类AnyRef表示在宿主系统中表示为一个对象的所有值。所有用户定义的Scala类都直接或间接的继承自该类。更进一步,所有用户定义的Scala类也都继承自特征scala.ScalaObject。由其他语言编写的类也都继承自...
分类:
其他好文 时间:
2015-05-29 18:14:32
阅读次数:
142
相似匹配
在我们使用网页搜索时,会注意到每一个结果都包含一个 “相似页面” 链接,单击该链接,就会发布另一个搜索请求,查找出与起初结果类似的文档。Solr 使用 MoreLikeThisComponent(MLT)和 MoreLikeThisHandler 实现了一样的功能。如上所述,MLT 是与标准 SolrRequestHandler 集成在一起的;MoreLikeThisHandl...
分类:
其他好文 时间:
2015-05-29 18:13:39
阅读次数:
103
全排序Hive的排序关键字是SORTBY,它有意区别于传统数据库的ORDERBY也是为了强调两者的区别–SORTBY只能在单机范围内排序。1.1.1例1setmapred.reduce.tasks=2;原值selectcookie_id,page_id,idfromc02_clickstat_fatdt1wherecookie_idIN(‘1.193.131.218.1288611279693.0‘,‘1.19..
分类:
编程语言 时间:
2015-05-28 18:21:20
阅读次数:
199
Array类通用数组类定义如下。final
classArray[A](len:Int)extendsSeq[A]{deflength:Int=lendef
apply(i:Int):A=...defupdate(i:Int,x:A):Unit=...defelements:
Iterator[A]=...defsubArray(from:Int,end:Int):Array[A]=...def
filter(p:A=>Boolean):Array[A]=...defmap[B](..
分类:
编程语言 时间:
2015-05-28 18:20:21
阅读次数:
331
Trident是以小批量(batch)的形式在处理tuple,并且每一批都会分配一个唯一的transaction
id。不同spout的特性不同,一个transactionalspout会有如下这些特性:1、有着同样txid的batch一定是一样的。当重播一个txid对应的batch时,一定会重播和之前对应txid的batch中同样的tup..
分类:
其他好文 时间:
2015-05-28 18:19:52
阅读次数:
188