jieba简介 jieba库是一个简单实用的中文自然语言处理分词库。 jieba分词属于概率语言模型分词。概率语言模型分词的任务是:在全切分所得的所有结果中求某个切分方案S,使得P(S)最大。 jieba支持三种分词模式: 全模式,把句子中所有的可以成词的词语都扫描出来, 速度非常快,但是不能解决歧 ...
分类:
其他好文 时间:
2020-02-02 19:31:12
阅读次数:
108
在之前的程序中我们发现分词不太准确,因此我们可以使用支持中文分词。 分析器的执行过程: 从一个reader字符流开始,创建一个基于reader的tokenizer分词器,经过三个tokenfilter(第一个大写变小写,第二个用回车替换空格,去掉不需要的a,the,and,逗号等)生成tokens。 ...
分类:
Web程序 时间:
2020-02-01 21:10:22
阅读次数:
99
pinyinpinyin是java实现的高性能中文拼音转换工具。变更日志创作目的想为java设计一款便捷易用的拼音工具。如何为java设计一款高性能的拼音转换工具pinyin4j特性性能是pinyin4j的两倍极简的api设计支持转换长文本支持多音字支持多种拼音标注方式支持中文分词快速开始准备jdk1.7+maven引入<dependency><groupId>com.gi
分类:
编程语言 时间:
2020-01-19 23:48:39
阅读次数:
108
发车 为什么要在elasticsearch中要使用ik这样的中文分词呢,那是因为es提供的分词是英文分词,对于中文的分词就做的非常不好了,因此我们需要一个中文分词器来用于搜索和使用。今天我们就尝试安装下IK分词。 上车 1、去github 下载对应的分词插件https://github.com/me ...
分类:
其他好文 时间:
2020-01-17 13:33:44
阅读次数:
74
今天咋们来看看网易云赵雷的歌曲歌词,并做一个词云图。这篇文章可以学习到什么是词云,爬虫的基本流程,简单的可视化操作 @[toc] 一 什么是词云 可视化有很多种,好的数据可视化,可以使得数据分析的结果更加通俗易通。"词云"属于可视化的一种,它会根据关键词的出现频率生成一幅图,这样可以让我们一眼就知道 ...
分类:
编程语言 时间:
2020-01-12 18:04:13
阅读次数:
115
本篇文章使用的ES版本是6.6.0,使用的在线安装;本文只是针对一个一个容器进行安装的,当然可以使用Dockerfile将IK做成新的镜像的,这篇文章就不介绍了。 1、进入容器 2、在线下载并安装 注意:版本号要一致,使用的 6.6.0版本; 进入到 plugins 目录可以看到IK分词器已经安装成 ...
分类:
其他好文 时间:
2020-01-01 11:53:20
阅读次数:
123
在前文当中,我们介绍了搜索引擎的大致原理。有错过或者不熟悉的同学,可以点击下方的链接回顾一下前文的内容。 "ML基础——搜索引擎基本原理" 在介绍爬虫部分的时候,我们知道,爬虫在爬取到网页的内容之后,会先进行一些处理。首先要做的就是过滤掉HTML当中的各种标签信息,只保留最原生的网页内容。之后,程序 ...
分类:
编程语言 时间:
2020-01-01 10:19:12
阅读次数:
122
中文分析器IK Analyzer IK Analyzer 是一个开源的,基于 java 语言开发的轻量级的中文分词工具包。 IK Analyzer配置在linux中 1、把IKAnalyzer2012FF_u1.jar 添加到 solr 工程(/usr/local/tomcat/webapps/so ...
分类:
其他好文 时间:
2019-12-26 21:14:31
阅读次数:
89
进入到我们ik分词器安装目录下的config目录 <?xml version="1.0" encoding="UTF-8"?><!DOCTYPE properties SYSTEM "http://java.sun.com/dtd/properties.dtd"><properties> <comm ...
分类:
其他好文 时间:
2019-12-25 23:37:10
阅读次数:
120
0、默认分词器。 默认分词器,查询的时候会把中文一个汉字当作一个关键字拆分,这样是不符合我们的需求的,所以需要安装分词器。 1、下载分词器。 当前有多种分词器可下载,据说比较好用的是IK分词器。 注意,下载分词器的时候,版本必须要与Elasticsearch安装的版本一致,否则会出现不可描述的错误。 ...
分类:
其他好文 时间:
2019-12-25 23:36:15
阅读次数:
192