分词器是用来实现分词的,从一串文本当中切分出一个一个的单词(词条),并对每个词条进行标准化处理(大小写、单复数、同义词等转换)。分词器包括3部分: 1、character filter:分词之前的预处理,过滤掉html标签,特殊符号转换等。 2、tokenizer:分词, 3、token filte ...
分类:
其他好文 时间:
2019-08-24 18:20:07
阅读次数:
83
分析过程 当数据被发送到elasticsearch后并加入倒排序索引之前,elasticsearch会对文档进行处理: 字符过滤:使用字符过滤器转变字符。 文本切分为分词:将文本(档)分为单个或多个分词。 分词过滤:使用分词过滤器转变每个分词。 分词索引:最终将分词存储在Lucene倒排索引中。 整 ...
分类:
其他好文 时间:
2019-08-24 00:36:15
阅读次数:
163
介绍 分词 python 添加自定义词典 python 自定义的词典格式如下: 词语 词频(可省略) 词性(可省略) 至于词频和词性后面会说 自定义一个1.txt文件,里面包含内容如下 python 除此之外,还可以不用通过加载文件的方式来加载词典 python 关键词提取 jieba 提供了两种关 ...
分类:
其他好文 时间:
2019-08-22 17:20:49
阅读次数:
106
问题1:jieba中文分词的原理? 问题2:HMM在jieba中的应用? 问题3:HMM在其他行业内有何应用? 首先学一个东西的第一步应该先看官网https://github.com/fxsjy/jieba 官网给出jieba中应用到的算法有: 基于前缀词典实现高效的词图扫描,生成句子中汉字所有可能 ...
分类:
其他好文 时间:
2019-08-22 01:13:57
阅读次数:
242
一、前言 为什么要在elasticsearch中要使用ik这样的中文分词呢,那是因为es提供的分词是英文分词,对于中文的分词就做的非常不好了,因此我们需要一个中文分词器来用于搜索和使用。 二、IK分词器的安装和使用 2.1、安装ik 我们可以从官方github上下载该插件,我们下载对应于我们使用的e ...
分类:
其他好文 时间:
2019-08-21 00:03:11
阅读次数:
114
1,下载插件压缩包(本地测试建议用迅雷下,生产用的绝对不要用迅雷下),链接地址:https://github.com/medcl/elasticsearch-analysis-ik/releases/tag/v7.3.0 2,在 elasticsearch-7.3.0\plugins 目录下新建一个 ...
通用爬虫和聚焦爬虫 一、通用爬虫 通用网络爬虫是捜索引擎抓取系统(Baidu、Google、Yahoo 等)的重要组成部分。主要目的是将互联网上的网页下载到本地,形成一个互联网内容的镜像备份。 二、通用搜索引擎(Search Engine)工作原理 通用网络爬虫 从互联网中搜集网页,采集信息,这些网 ...
分类:
其他好文 时间:
2019-08-19 22:44:08
阅读次数:
102
原文: http://blog.gqylpy.com/gqy/356 "安装:pip install jieba __ __ 模块用于将一句或多句话按词组分割为列表. 如下示例: " 原文: http://blog.gqylpy.com/gqy/356 ...
分类:
编程语言 时间:
2019-08-18 19:43:08
阅读次数:
78
1.1 计算机专业英语的特点 :清晰、精练、严密、准确 1.1.1 用词和语法的特点 用词:专业术语多,缩略词汇多且都仍在扩充。 语法:被动语态为主体,常用非谓语动词,名词化结构和从句等。 1.1.2 It……句型结构 It is + 名词 + 从句 It is +形容词 + 从句 It is + ...
分类:
其他好文 时间:
2019-08-18 00:20:36
阅读次数:
138
剖析千人千面的大脑——推荐引擎部分,其中这篇是定位:对推荐引擎中的核心算法:协同过滤进行深挖。 首先,千人千面融合各种场景,如搜索,如feed流,如广告,如风控,如策略增长,如购物全流程等等;其次千人千面的大脑肯定是内部的推荐引擎,这里有诸多规则和算法在实现对上述各个场景进行“细分推荐排序”;最后是 ...
分类:
编程语言 时间:
2019-08-14 21:32:01
阅读次数:
191