在我们使用网页搜索时,会注意到每一个结果都包含一个 “相似页面” 链接,单击该链接,就会发布另一个搜索请求,查找出与起初结果类似的文档。Solr 使用 MoreLikeThisComponent(MLT)和 MoreLikeThisHandler 实现了一样的功能。如上所述,MLT 是与标准 SolrRequestHandler 集成在一起的;MoreLikeThisHandler 与 MLT 结...
分类:
其他好文 时间:
2015-05-27 19:10:36
阅读次数:
123
hbase提供了一个shell的终端给用户交互。使用命令hbaseshell进入命令界面。通过执行 help可以看到命令的帮助信息。
以网上的一个学生成绩表的例子来演示hbase的用法。
name
grad
course
math
art
T...
分类:
系统相关 时间:
2015-05-27 19:09:39
阅读次数:
389
用户自定义函数(UDF)
public abstract class EvalFunc {
public abstract T exec(Tuple input) throws IOException;
public List getAvgToFuncMapping() throws FrontendException;
public FuncSpec outp...
分类:
其他好文 时间:
2015-05-27 19:09:35
阅读次数:
112
数据模型(DataModel)storm使用tuple来作为它的数据模型。每个tuple是一堆值,每个值有一个名字,并且每个值可以是任何类型,在我的理解里面一个tuple可以看作一个没有方法的java对象。总体来看,storm支持所有的基本类型,字符串以及字节数组作为tuple的值类型。你也可以使用你..
分类:
其他好文 时间:
2015-05-26 19:05:57
阅读次数:
103
并行处理: 可以在很多语句中指定reducer的数量
group, join, cogroup, cross, distinct, order
(复习:reduce的任务个数设置为稍小于集群中的reduce任务槽数)
参数替换:在pig语句中使用$加变量名的方式使用外部定义的变量值,在运行时可以通过"-param input=”设置变量的值,
或者通过"-param_f...
分类:
其他好文 时间:
2015-05-26 18:56:02
阅读次数:
123
因为 Solr 包装并扩展了Lucene,所以它们使用很多相同的术语。更重要的是,Solr 创建的索引与 Lucene 搜索引擎库完全兼容。通过对 Solr 进行适当的配置,某些情况下可能需要进行编码,Solr 可以阅读和使用构建到其他 Lucene 应用程序中的索引。在 Solr 和 Lucene 中,使用一个或多个 Document 来构建索引。Document包括一个或多个 Field。Fi...
分类:
其他好文 时间:
2015-05-26 18:55:02
阅读次数:
174
HBase 0.92版本之后,RegionServer的Compact过程根据待合并的文件大小分为smallcompaction和large compaction两种,由此可能导致在集群写入量大的时候Compact占用过多的网络出口带宽。本文将详细描述集群使用过程中遇到这一问题的排查过程及其解决方法。
1. 发现问题
HBase集群(版本为0.94.0)运行过程中,发现5台Region Ser...
分类:
其他好文 时间:
2015-05-26 18:54:30
阅读次数:
127
将一个或多个值 value 插入到列表 key 的表头
如果有多个 value 值,那么各个 value 值按从左到右的顺序依次插入到表头:比如对一个空列表 mylist 执行 LPUSH mylist a b c ,则结果列表为 c b a ,等同于执行执行命令
LPUSH mylist a 、 LPUSH mylist b 、 LPUSH
mylist c 。
如果 key 不...
分类:
其他好文 时间:
2015-05-26 18:54:05
阅读次数:
120
除了从父类集成代码外,Scala中的类还允许从一个或者多个traits中导入代码。
对于Java程序员来说理解traits的最好方法就是把他们当作可以包含代码的接口(interface)。在Scala中,当一个类继承一个trait时,它就实现了这个trait的接口,同时还从这个trait中继承了所有的代码。
让我们通过一个典型的实例来看看这种trait机制是如何发挥作用的:排序对象。能够比较若...
分类:
其他好文 时间:
2015-05-26 18:53:12
阅读次数:
117
zookeeper概述
针对分布式应用的分布式协作服务,zookeeper的开发动机就是为了减轻分布式应用从头开发协作服务的负担。
设计目标
简单。 允许多个分布的进程基于一个共享的,类似标准文件系统的树状名称空间进行协作。每个节点称作一个znode。
ZooKeeper is replicated
几个zookeeper集群包含多个zookeeper server,...
分类:
其他好文 时间:
2015-05-26 18:52:58
阅读次数:
184