标签:ict 空格 osi err 日本 ref 繁体中文 getattr nbsp
目前本插件支持如下基于schema.xml的配置:
配置项名称 | 功能 | 默认值 |
---|---|---|
enableIndexMode | 设为索引模式 | true |
enableCustomDictionary | 是否启用用户词典 | true |
customDictionaryPath | 用户词典路径(绝对路径或程序可以读取的相对路径,多个词典用空格隔开) | null |
stopWordDictionaryPath | 停用词词典路径 | null |
enableNumberQuantifierRecognize | 是否启用数词和数量词识别 | true |
enableNameRecognize | 开启人名识别 | true |
enableTranslatedNameRecognize | 是否启用音译人名识别 | false |
enableJapaneseNameRecognize | 是否启用日本人名识别 | false |
enableOrganizationRecognize | 开启机构名识别 | false |
enablePlaceRecognize | 开启地名识别 | false |
enableNormalization | 是否执行字符正规化(繁体->简体,全角->半角,大写->小写) | false |
enableTraditionalChineseMode | 开启精准繁体中文分词 | false |
对于更高级的配置,HanLP分词器主要通过class path下的hanlp.properties
进行配置,请阅读HanLP自然语言处理包文档以了解更多相关配置,如:
停用词
用户词典
词性标注
……
在Query改写的时候,可以利用HanLPAnalyzer分词结果中的词性等属性,如
在另一些场景,支持以自定义的分词器(比如开启了命名实体识别的分词器、繁体中文分词器、CRF分词器等)构造HanLPTokenizer,比如:
更详细的高级配置:https://github.com/hankcs/HanLP
标签:ict 空格 osi err 日本 ref 繁体中文 getattr nbsp
原文地址:http://www.cnblogs.com/gaoxufei/p/6418440.html