在之前的程序中我们发现分词不太准确,因此我们可以使用支持中文分词。 分析器的执行过程: 从一个reader字符流开始,创建一个基于reader的tokenizer分词器,经过三个tokenfilter(第一个大写变小写,第二个用回车替换空格,去掉不需要的a,the,and,逗号等)生成tokens。 ...
分类:
Web程序 时间:
2020-02-01 21:10:22
阅读次数:
99
argparse 模块使用 使用步骤: 1. import argparse 2. parser=argparse.ArgumentParser() 3. parser.add_argument() 4. parser.parse_args() 说明: ArgumentParser(descript ...
分类:
其他好文 时间:
2020-01-31 22:24:58
阅读次数:
64
【前言】从前年的时候,我都在心里有个想法。我想自己做一套搜索功能。在心里我是这么想的:1、有个资源信息库,供我查询,这个资源库可能包含各种途径生成的统一格式的数据库。2、查询时,我先整段匹配资源库找到资源。3、接下来就是分词了,这里我联想到了一些输入法的细胞词库。也就是说能不能按照细胞词库先匹配我们的搜索内容,然后将分词后的搜索条件进行匹配查询。4、按照匹配度的高低进行排序。直到昨天,在工作中刚刚
分类:
Web程序 时间:
2020-01-31 16:09:51
阅读次数:
101
1. 倒排求交 上一篇讲了分词。对用户的query分词之后,得到了一个个独立的词(term)。先设想一个问题,用这些词去索引里搜索时,是不是doc命中query中任何一个term,都可以被搜索出来?(query中只有一个term除外) 这里涉及好几个问题: 1. 截断:例如query是5个词ABCD ...
分类:
其他好文 时间:
2020-01-30 09:56:17
阅读次数:
101
首先这个AttributeError: ‘module’ object has no attribute ‘cut’ 报错的原因是因为有jieba.py这个文件存在,或者jieba这样命名的文件存在,很多新人使用结巴 来分词的时候命名直接为jieba.py,但是其实官方给的教程代码里有import ...
分类:
编程语言 时间:
2020-01-21 19:51:34
阅读次数:
83
pinyinpinyin是java实现的高性能中文拼音转换工具。变更日志创作目的想为java设计一款便捷易用的拼音工具。如何为java设计一款高性能的拼音转换工具pinyin4j特性性能是pinyin4j的两倍极简的api设计支持转换长文本支持多音字支持多种拼音标注方式支持中文分词快速开始准备jdk1.7+maven引入<dependency><groupId>com.gi
分类:
编程语言 时间:
2020-01-19 23:48:39
阅读次数:
108
pinyin "pinyin" 是 java 实现的高性能中文拼音转换工具。 "变更日志" 创作目的 想为 java 设计一款便捷易用的拼音工具。 "如何为 java 设计一款高性能的拼音转换工具 pinyin4j" 特性 "性能是 pinyin4j 的两倍" 极简的 api 设计 支持转换长文本 ...
分类:
编程语言 时间:
2020-01-19 00:03:57
阅读次数:
221
QQ的聊天记录可以通过消息管理器,选中联系人,右键导出为 .txt 格式。由于是中文,需要分词,本文的分词工具采用的是 jieba 分词。 不知道这个“福”能不能扫出来。 假设你已经导出与某人的聊天记录,接下来需要先过滤再分词生成词云。 1. 过滤掉图片和表情,以及聊天记录的时间和qq名称 newt ...
分类:
其他好文 时间:
2020-01-18 19:16:57
阅读次数:
138
数据来源:http://ictclas.nlpir.org/nlpir/ (一个很牛逼的网站,上面有非常多的处理语言的功能(如分词标注、情感分析、相关词汇)) 当然这个网站还有其他的功能,像“分词标注”,就是把你输入的文本切成一个个的词,并且把这些词的词性都标出来; 还有“情感分析”的功能,就是分析 ...
分类:
其他好文 时间:
2020-01-17 13:56:15
阅读次数:
97
发车 为什么要在elasticsearch中要使用ik这样的中文分词呢,那是因为es提供的分词是英文分词,对于中文的分词就做的非常不好了,因此我们需要一个中文分词器来用于搜索和使用。今天我们就尝试安装下IK分词。 上车 1、去github 下载对应的分词插件https://github.com/me ...
分类:
其他好文 时间:
2020-01-17 13:33:44
阅读次数:
74