标签:
许多搜索应用索引结构化数据,如关系型数据库.DIH提供了一个这样的存储并索引结构化数据的机制.除了关系型数据库,solr可以索引来自HTTP的内容,基于数据源如RSS和ATOM feeds,e-mail库和结构化XML(可以使用XPath来生成字段)
更多信息参考 https://wiki.apache.org/solr/DataImportHandler.
概念和术语
Data Import Handler的描述使用了几个相似的术语,如Entity和processor.
术语 | 定义 |
Datasource | 对于一个数据库,它时一个DNS,对于一个HTTP数据源,它就是一个基础的URL. |
Entity | 从概念上来讲,一个实体生成一组documents.对于RDBMS数据源来说,一个实体就是一个视图或者一张表. |
Processor | 一个实体处理器用于从数据源中抽取内容,转换处理,添加到索引中.自定义的实体处理器可以继承或者替换它所支持的实体处理器. |
Transformer | 实体获取的每一组字段都可以选择被转换处理.这种转换处理可以是修改字段,创建新的字段,或者是由一行生成多行/文档.DIH中有几个内置的转换器,可以修改日期,过滤HTML标签.也可以使用公共可用的接口自定义转换器. |
1.6.4 Uploading Structured Data Store Data with the Data Import Handler
标签:
原文地址:http://www.cnblogs.com/a198720/p/4311676.html