标签:
Data Import Handler
可以从数据库,网页地址等剑姬文档。
可以全量添加,也支持增量添加(只增加修改的内容)
使用DIH,需要3步重要的配置。
首先,向solrconfig中增加使用的jar包。
<lib dir="../../../contrib/dataimporthandler/lib" regex=".*\.jar" />
<lib dir="../../../dist/" regex="solr-dataimporthandler-.*\.jar" />
其次,再solrconfig中配置dataimport请求处理器
<requestHandler name="/dataimport"
class="org.apache.solr.handler.dataimport.DataImportHandler">
<lst name="defaults">
<str name="config">data-config.xml</str>
</lst>
</requestHandler>
最后,为DIH提供一个data import的配置文件。上面定义为data-config.xml,目录为conf/的相对目录。
该文件包含所有数据源的引用,以及将数据转换成文档的步骤。支持多种数据源,复杂的转换逻辑(包括支持操作导入数据的脚本语言)
具体内容见Solr wiki
http://wiki.apache.org/solr/DataImportHandler
************************************************************************************************
*启动dih的例子
bin/solr -e dih
相关术语:
Datasource:数据源。例如数据库要提供数据库连接,用户名和密码
Entity:实体用来产生文档,数据库的实体就是表
Processor:实体处理器用于抽取数据,转成文档,加入索引。支持用户自定义Processor。
Transformer:转换器。用于改变字段,创建新字段,从一行生成多个文档等操作,支持自定义。
例子:example-DIH中db的例子。
配置文件是<dataConfig>标签的数据库转换配置,这个文件可以作为DIH处理器的参数。
DIH请求通过HTTP请求发送给solr
全量提交的参数
Property Writer
DIH配置文件的可选配置,用于定义日期格式和位置信息。详见文档。
*Entity Processors实体处理器,具体参数表见文档
标签:
原文地址:http://www.cnblogs.com/cjrzh/p/4728004.html