文本是非结构化的数据,我们无法直接对文本进行聚类处理。在此之前,应该对文本进行一些预处理操作,将文本信息转化成统一的结构化的形式。再对这些结构化的数据进行聚类。文本预处理对于聚类的效果有着重要的作用,预处理的质量高低影响着聚类结果的好坏。对于英文文本的预处理一般包含以下几个步骤:分词去除非英文文本拼... ...
分类:
其他好文 时间:
2019-09-30 12:44:47
阅读次数:
439
0)前言 a. 基本规约 【强制】表存储引擎必须使用InnoDB(针对主库一般是强制要求的) 【强制】表字符集默认使用utf8,必要时候使用utf8mb4(个人踩坑:emoji表情存储问题)?说明:?通用,无乱码风险,汉字3字节,英文1字节?utf8mb4是utf8的超集,有存储4字节例如表情符号时 ...
分类:
数据库 时间:
2019-09-29 22:17:02
阅读次数:
142
1、创建core文件夹 2、添加core 3、配置中文IK分词器 参考:https://github.com/magese/ik-analyzer-solr 1)将ik-analyzer-7.7.1.jar复制到solr-7.7.2/server/solr-webapp/webapp/WEB-INF ...
分类:
其他好文 时间:
2019-09-28 20:34:40
阅读次数:
117
一、下载安装Apache Solr 8.2.0 下载地址:http://lucene.apache.org/solr/downloads.html 因为是部署部署在windows系统上,所以下载zip压缩包即可。 下载完成后解压出来。 二、启动solr服务 进入solr-7.3.0/bin目录: S ...
分类:
其他好文 时间:
2019-09-27 18:56:22
阅读次数:
187
CountVectorizer方法进行特征提取 from sklearn.feature.extraction.text import CountVectorizer 这个方法根据分词进行数量统计继续文本分类 文本特征提取 作用:对文本进行特征值化 sklearn.feature_extractio ...
分类:
其他好文 时间:
2019-09-26 00:42:39
阅读次数:
508
minimum_should_match 只能用在multi_match里 可以这样写: 表示命中4个词的文档才会返回 也可以这样写: 这里的80%是指query的分词个数的80% 我们调一下分词接口,看结果: query被分成了4个词,所以minimum_should_match:"80%" 在这 ...
分类:
其他好文 时间:
2019-09-23 12:12:48
阅读次数:
66
遇到的问题 1. 检索葡萄糖关键字,希望结果仅包含葡萄糖,不包含葡萄;检索葡萄,希望结果包含葡萄糖。 2. 同义词如何配置 3. 如何确保搜索关键词被正确分词 分析器分词流程 分析器扮演着非常重要的角色,ES提供的有内置的分析器,社区也提供各种分析器插件(如中文的ik分析器)。分析器由以下几个组件构 ...
分类:
其他好文 时间:
2019-09-23 11:39:39
阅读次数:
114
elasticsearch数据组织结构 1. mapping 1.1. 简介 mapping:意为映射关系,特别是指组织结构。在此语境中可理解为数据结构,包括表结构,表约束,数据类型等。(非母语环境伤不起。。。晦涩无比,半小时才转过圈来) 1.2. mapping type 每个索引都有一个映射类型 ...
分类:
其他好文 时间:
2019-09-21 15:13:07
阅读次数:
171
解析-analysis 1. 解析-analysis 可以理解为分词。 解析由解析器——analyzer执行,解析器包括内置和用户自定义两种。 1.1. 解析器 1.1.1. 内置解析器 doc:https://www.elastic.co/guide/en/elasticsearch/refere ...
分类:
其他好文 时间:
2019-09-21 15:12:26
阅读次数:
105
elasticsearch 分词器 1. 分词器构造 一个分词器——无论内置还是自定义,是一个包含三个生成块的包:character filters, tokenizers, and token filter.(字符过滤器,断词,分词过滤) 1.1. character filters 字符过滤器接 ...
分类:
其他好文 时间:
2019-09-21 14:24:08
阅读次数:
85