搜索关键字：分词，搜索到2158个结果！码迷,mamicode.com！

文本聚类——文本预处理

文本是非结构化的数据，我们无法直接对文本进行聚类处理。在此之前，应该对文本进行一些预处理操作，将文本信息转化成统一的结构化的形式。再对这些结构化的数据进行聚类。文本预处理对于聚类的效果有着重要的作用，预处理的质量高低影响着聚类结果的好坏。对于英文文本的预处理一般包含以下几个步骤：分词去除非英文文本拼... ...

分类：其他好文时间：2019-09-30 12:44:47 阅读次数：439

MySQL 相关规约（v1.0）（转）

0）前言 a. 基本规约【强制】表存储引擎必须使用InnoDB（针对主库一般是强制要求的）【强制】表字符集默认使用utf8，必要时候使用utf8mb4（个人踩坑：emoji表情存储问题）?说明：?通用，无乱码风险，汉字3字节，英文1字节?utf8mb4是utf8的超集，有存储4字节例如表情符号时 ...

分类：数据库时间：2019-09-29 22:17:02 阅读次数：142

Solr7.x学习（3）-创建core并使用分词器

1、创建core文件夹 2、添加core 3、配置中文IK分词器参考：https://github.com/magese/ik-analyzer-solr 1）将ik-analyzer-7.7.1.jar复制到solr-7.7.2/server/solr-webapp/webapp/WEB-INF ...

分类：其他好文时间：2019-09-28 20:34:40 阅读次数：117

solr8.2 环境搭建配置中文分词器 ik-analyzer-solr8 详细步骤

一、下载安装Apache Solr 8.2.0 下载地址：http://lucene.apache.org/solr/downloads.html 因为是部署部署在windows系统上，所以下载zip压缩包即可。下载完成后解压出来。二、启动solr服务进入solr-7.3.0/bin目录： S ...

分类：其他好文时间：2019-09-27 18:56:22 阅读次数：187

CountVectorizer方法对中文进行特征提取

CountVectorizer方法进行特征提取 from sklearn.feature.extraction.text import CountVectorizer 这个方法根据分词进行数量统计继续文本分类文本特征提取作用：对文本进行特征值化 sklearn.feature_extractio ...

分类：其他好文时间：2019-09-26 00:42:39 阅读次数：508

multi_match 的 minimum_should_match

minimum_should_match 只能用在multi_match里可以这样写：表示命中4个词的文档才会返回也可以这样写：这里的80%是指query的分词个数的80% 我们调一下分词接口，看结果： query被分成了4个词，所以minimum_should_match:"80%" 在这 ...

分类：其他好文时间：2019-09-23 12:12:48 阅读次数：66

elasticsearch中文搜索优化

遇到的问题 1. 检索葡萄糖关键字，希望结果仅包含葡萄糖，不包含葡萄；检索葡萄，希望结果包含葡萄糖。 2. 同义词如何配置 3. 如何确保搜索关键词被正确分词分析器分词流程分析器扮演着非常重要的角色，ES提供的有内置的分析器，社区也提供各种分析器插件（如中文的ik分析器）。分析器由以下几个组件构 ...

分类：其他好文时间：2019-09-23 11:39:39 阅读次数：114

elasticsearch数据组织结构

elasticsearch数据组织结构 1. mapping 1.1. 简介 mapping：意为映射关系，特别是指组织结构。在此语境中可理解为数据结构，包括表结构，表约束，数据类型等。（非母语环境伤不起。。。晦涩无比，半小时才转过圈来） 1.2. mapping type 每个索引都有一个映射类型 ...

分类：其他好文时间：2019-09-21 15:13:07 阅读次数：171

解析-analysis

解析-analysis 1. 解析-analysis 可以理解为分词。解析由解析器——analyzer执行，解析器包括内置和用户自定义两种。 1.1. 解析器 1.1.1. 内置解析器 doc:https://www.elastic.co/guide/en/elasticsearch/refere ...

分类：其他好文时间：2019-09-21 15:12:26 阅读次数：105

elasticsearch 分词器

elasticsearch 分词器 1. 分词器构造一个分词器——无论内置还是自定义，是一个包含三个生成块的包：character filters, tokenizers, and token filter.（字符过滤器，断词，分词过滤） 1.1. character filters 字符过滤器接 ...

分类：其他好文时间：2019-09-21 14:24:08 阅读次数：85

共2158条上一页 1 ... 32 33 34 35 36 ... 216 下一页

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)