使用solr从pdf、office文档中建立索引和从数据库中建立相似,只不过这里需要tika来解析这些文档。8.1配置一个handler这个handler首先要在solrConfig.xml中配置,如下所示:
<requestHandler
name="/dataimport"
class="org.apache.solr.handler.dataimport.DataImportHandle..
分类:
其他好文 时间:
2015-05-28 18:21:28
阅读次数:
209
PubSub(发布订阅)PUBLISHPUBLISHchannelmessage将信息message发送到指定的频道channel
。可用版本:>=2.0.0时间复杂度:O(N+M),其中N是频道channel的订阅者数量,而M
则是使用模式订阅(subscribedpatterns)的客户端的数量。返回值:接收到信息message
的订阅者数量。#对没..
分类:
其他好文 时间:
2015-05-28 18:20:55
阅读次数:
284
PubSub(发布订阅)
PUBLISH
PUBLISH channel message
将信息 message 发送到指定的频道 channel 。
可用版本:
>=2.0.0
时间复杂度:
O(N+M),其中 N 是频道 channel 的订阅者数量,而 M 则是使用模式订阅(subscribed
patterns)的客户端的数量。
返回值:
...
分类:
其他好文 时间:
2015-05-28 18:14:34
阅读次数:
179
本文以wordCount为例,详细说明spark创建和运行job的过程,重点是在进程及线程的创建。
实验环境搭建
在进行后续操作前,确保下列条件已满足。
1. 下载spark binary 0.9.1
2. 安装scala
3. 安装sbt
4. 安装java
启动spark-shell单机模式运行,即local模式
local模式运行非常简单,只要运行以下命令即可,假设当前目录是...
分类:
Web程序 时间:
2015-05-28 18:13:05
阅读次数:
208
使用solr从pdf、office文档中建立索引和从数据库中建立相似,只不过这里需要tika来解析这些文档。8.1 配置一个handler
这个handler首先要在solrConfig.xml中配置,如下所示:
tika-data-config.xml
...
分类:
其他好文 时间:
2015-05-28 18:13:02
阅读次数:
749
1.1 全排序
Hive的排序关键字是SORT BY,它有意区别于传统数据库的ORDER BY也是为了强调两者的区别–SORT BY只能在单机范围内排序。[/url][王黎1]
1.1.1 例1
set mapred.reduce.tasks=2;
原值
select cookie_id,page_id,id fromc02_clickstat_fatdt1
where c...
分类:
编程语言 时间:
2015-05-28 16:15:06
阅读次数:
237
Trident是以小批量(batch)的形式在处理tuple,并且每一批都会分配一个唯一的transaction
id。不同spout的特性不同,一个transactionalspout会有如下这些特性:
1、有着同样txid的batch一定是一样的。当重播一个txid对应的batch时,一定会重播和之前对应txid的batch中同样的tuples。
2、各个batch之间是没有交...
分类:
其他好文 时间:
2015-05-28 16:15:03
阅读次数:
149
Array类
通用数组类定义如下。
final class Array[A](len: Int) extends Seq[A] {
def length: Int = len
def apply(i: Int): A = ...
def update(i: Int, x: A): Unit = ...
def elements: Iterator[A] = ...
def subAr...
分类:
编程语言 时间:
2015-05-28 16:10:34
阅读次数:
211
devicemapper的多路径
1.功能: 可以将多个物理设备合成为一个逻辑设备,可以做普通的合并,或者实现类似raid0的条带化,还可以用来屏蔽硬盘中的坏道扇区,还可做lvm快照来备份数据库,或者通过零设备文件来模拟非常大的设备,用于测试功能。 Device mapper 是lvm 和 multipating 的底层技术。
2.安装包: device-mapper device-map...
分类:
移动开发 时间:
2015-05-28 16:10:31
阅读次数:
227
master启动过程:-->首先初始化HMaster-->创建一个rpcServer,其中并启动-->启动一个Listener线程,功能是监听client的请求,将请求放入nio请求队列,逻辑如下:-->创建n个selector,和一个n个线程的readpool,n由"ipc.server.read.threadpool.size"决定,默认为10..
分类:
其他好文 时间:
2015-05-28 14:20:55
阅读次数:
162