Elasticsearch 6.4.3 logstash 6.4.3 及 ik 6.4.3 中文分词器下载 elasticsearch-6.4.3.tar.gz logstash-6.4.3.tar.gz elasticsearch-analysis-ik-6.4.3.zip 下载链接 链接:htt ...
分类:
其他好文 时间:
2020-04-19 17:36:26
阅读次数:
200
jieba库的使用和好玩的词云 一、jieba库使用 (1)安装: 输入命令:pip install jieba(如图:在后面加上所示网址超级快) (2)jieba库常用函数 jieba库分词的三种模式: 1、精准模式:把文本精准地分开,不存在冗余 2、全模式:把文中所有可能的词语都扫描出来,存在冗 ...
分类:
其他好文 时间:
2020-04-19 01:08:27
阅读次数:
123
1. 应用K-means算法进行图片压缩 读取一张图片 观察图片文件大小,占内存大小,图片数据结构,线性化 用kmeans对图片像素颜色进行聚类 获取每个像素的颜色类别,每个类别的颜色 压缩图片生成:以聚类中收替代原像素颜色,还原为二维 观察压缩图片的文件大小,占内存大小 from sklearn. ...
分类:
编程语言 时间:
2020-04-18 23:08:27
阅读次数:
92
对机器学习感兴趣的小伙伴,可以借助python,实现一个N-gram分词中的Unigram和Bigram分词器,来进行入门。
此项目并将前向最大切词FMM和后向最大切词的结果作为Baseline,对比分析N-gram分词器在词语切分正确率、词义消歧和新词识别等方面的优势。 ...
分类:
其他好文 时间:
2020-04-18 16:03:57
阅读次数:
123
一. elasticsearch on windows 1.下载地址: https://www.elastic.co/cn/downloads/elasticsearch 如果浏览器下载文件慢,建议使用迅雷下载,速度很快。下载版本为7.5.2 2. 修改配置文件 下载后解压,找到config\jvm ...
分类:
Web程序 时间:
2020-04-18 15:46:42
阅读次数:
95
分词技术就是搜索引擎针对用户提交查询的关键词串进行的查询处理后根据用户的关键词串用各种匹配方法进行分词的一种技术。 中文分词(Chinese Word Segmentation)指的是将一个汉字序列(句子)切分成一个一个的单独的词,分词就是将连续的字序列按照一定的规则重新组合成词序列的过程。 现在分 ...
分类:
编程语言 时间:
2020-04-17 11:06:53
阅读次数:
98
众所周知, 斯坦福大学自然语言处理组 出品了一系列NLP工具包,但是大多数都是用Java写得,对于Python用户不是很友好。几年前我曾基于斯坦福Java工具包和NLTK写过一个简单的中文分词接口: Python自然语言处理实践: 在NLTK中使用斯坦福中文分词器 ,不过用起来也不是很方便。深度学习 ...
分类:
编程语言 时间:
2020-04-15 13:47:31
阅读次数:
191
什么是分词 分词就是指将一个文本转化成一系列单词的过程,也叫文本分析,在Elasticsearch中称之为Analysis。举例:我是中国人 --> 我/是/中国人 结果: { "tokens": [ { "token": "hello", "start_offset": 0, "end_offse ...
分类:
其他好文 时间:
2020-04-13 23:03:30
阅读次数:
65
import jieba txt = open("D:\\三国演义.txt", "r", encoding='ANSI').read() words = jieba.lcut(txt) # 使用精确模式对文本进行分词 counts = {} # 通过键值对的形式存储词语及其出现的次数 for wor ...
分类:
其他好文 时间:
2020-04-13 16:43:10
阅读次数:
204
一、需求 实现文章标题中或分类(甚至文章内容)包含搜索词的文章,按照搜索词出现的频率的权重展示。 二、环境 Nginx+PHP+Mysql(系统Centos7)。 三、安装 1.安装依赖 yum -y install make gcc gcc-c++ libtool autoconf automak ...
分类:
Web程序 时间:
2020-04-12 07:41:40
阅读次数:
77