搜索关键字：分词，搜索到2158个结果！码迷,mamicode.com！

（06）ElasticSearch 分词器介绍及安装中文分词器

分词器是用来实现分词的，从一串文本当中切分出一个一个的单词（词条），并对每个词条进行标准化处理（大小写、单复数、同义词等转换）。分词器包括3部分： 1、character filter：分词之前的预处理，过滤掉html标签，特殊符号转换等。 2、tokenizer：分词， 3、token filte ...

分类：其他好文时间：2019-08-24 18:20:07 阅读次数：83

Elasticsearch的分析过程,内置字符过滤器、分析器、分词器、分词过滤器（真是变态多啊！美滋滋）

分析过程当数据被发送到elasticsearch后并加入倒排序索引之前，elasticsearch会对文档进行处理：字符过滤：使用字符过滤器转变字符。文本切分为分词：将文本（档）分为单个或多个分词。分词过滤：使用分词过滤器转变每个分词。分词索引：最终将分词存储在Lucene倒排索引中。整 ...

分类：其他好文时间：2019-08-24 00:36:15 阅读次数：163

jieba：我虽然结巴，但是我会分词啊

介绍分词 python 添加自定义词典 python 自定义的词典格式如下：词语词频(可省略) 词性(可省略) 至于词频和词性后面会说自定义一个1.txt文件，里面包含内容如下 python 除此之外，还可以不用通过加载文件的方式来加载词典 python 关键词提取 jieba 提供了两种关 ...

分类：其他好文时间：2019-08-22 17:20:49 阅读次数：106

jieba分词与HMM学习

问题1：jieba中文分词的原理？问题2：HMM在jieba中的应用？问题3：HMM在其他行业内有何应用？首先学一个东西的第一步应该先看官网https://github.com/fxsjy/jieba 官网给出jieba中应用到的算法有：基于前缀词典实现高效的词图扫描，生成句子中汉字所有可能 ...

分类：其他好文时间：2019-08-22 01:13:57 阅读次数：242

ElasticSearch的中文分词器ik

一、前言为什么要在elasticsearch中要使用ik这样的中文分词呢，那是因为es提供的分词是英文分词，对于中文的分词就做的非常不好了，因此我们需要一个中文分词器来用于搜索和使用。二、IK分词器的安装和使用 2.1、安装ik 我们可以从官方github上下载该插件，我们下载对应于我们使用的e ...

分类：其他好文时间：2019-08-21 00:03:11 阅读次数：114

elasticsearch-analysis-ik windows 环境 IK 中文分词器的下载和安装

1，下载插件压缩包（本地测试建议用迅雷下，生产用的绝对不要用迅雷下），链接地址：https://github.com/medcl/elasticsearch-analysis-ik/releases/tag/v7.3.0 2，在 elasticsearch-7.3.0\plugins 目录下新建一个 ...

分类：Windows程序时间：2019-08-20 09:14:06 阅读次数：123

爬虫基础

通用爬虫和聚焦爬虫一、通用爬虫通用网络爬虫是捜索引擎抓取系统（Baidu、Google、Yahoo 等）的重要组成部分。主要目的是将互联网上的网页下载到本地，形成一个互联网内容的镜像备份。二、通用搜索引擎（Search Engine）工作原理通用网络爬虫从互联网中搜集网页，采集信息，这些网 ...

分类：其他好文时间：2019-08-19 22:44:08 阅读次数：102

【Python jieba】𴱟

原文: http://blog.gqylpy.com/gqy/356 "安装：pip install jieba __ __ 模块用于将一句或多句话按词组分割为列表. 如下示例： " 原文: http://blog.gqylpy.com/gqy/356 ...

分类：编程语言时间：2019-08-18 19:43:08 阅读次数：78

第一章计算机专业英语基础知识

1.1 计算机专业英语的特点：清晰、精练、严密、准确 1.1.1 用词和语法的特点用词：专业术语多，缩略词汇多且都仍在扩充。语法：被动语态为主体，常用非谓语动词，名词化结构和从句等。 1.1.2 It……句型结构 It is + 名词 + 从句 It is +形容词 + 从句 It is + ...

分类：其他好文时间：2019-08-18 00:20:36 阅读次数：138

什么是协同过滤推荐算法？

剖析千人千面的大脑——推荐引擎部分，其中这篇是定位：对推荐引擎中的核心算法：协同过滤进行深挖。首先，千人千面融合各种场景，如搜索，如feed流，如广告，如风控，如策略增长，如购物全流程等等；其次千人千面的大脑肯定是内部的推荐引擎，这里有诸多规则和算法在实现对上述各个场景进行“细分推荐排序”；最后是 ...

分类：编程语言时间：2019-08-14 21:32:01 阅读次数：191

共2158条上一页 1 ... 35 36 37 38 39 ... 216 下一页

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)