Python上著名的?然语?处理库 ?带语料库,词性分类库 ?带分类,分词,等等功能 强?的社区?持 还有N多的简单版wrapper 安装语料库 # 方式一 import nltk nltk.download() showing info https://raw.githubusercontent. ...
分类:
其他好文 时间:
2019-03-29 00:39:39
阅读次数:
238
minhash simhash SimHash的工作原理 SimHash算法工作流程图: SimHash的工作原理 SimHash算法工作流程图: 1、分词,把需要判断文本分词形成这个文章的特征单词。最后形成去掉噪音词的单词序列并为每个词加上权重,我们假设权重分为5个级别(1~5)。比如:“ 美国“ ...
分类:
其他好文 时间:
2019-03-27 15:29:09
阅读次数:
306
1.自动文本分类是对大量的非结构化的文字信息(文本文档、网页等)按照给定的分类体系,根据文字信息内容分到指定的类别中去,是一种有指导的学习过程。 分类过程采用基于统计的方法和向量空间模型可以对常见的文本网页信息进行分类,分类的准确率可以达到85%以上。分类速度50篇/秒。 2.要想分类必须先分词,进 ...
分类:
其他好文 时间:
2019-03-24 23:06:57
阅读次数:
197
一、Java API操作 1. API基本操作 2. 条件查询QueryBuilder 3. 映射相关操作 二、IK分词器 1. IK分词器的安装 2. IK分词器的使用 三、Logstash 1. Logstash简介 2. Logstash 安装 3. Logstash 配置 四、Kibana ...
分类:
其他好文 时间:
2019-03-24 13:50:30
阅读次数:
181
https://edu.cnblogs.com/campus/gzcc/GZCC-16SE1/homework/2822 中文词频统计 1. 下载一长篇中文小说。 2. 从文件读取待分析文本。 3. 安装并使用jieba进行中文分词。 pip install jieba import jieba j ...
分类:
其他好文 时间:
2019-03-22 18:41:18
阅读次数:
211
初次接触 Elasticsearch 的同学经常会遇到分词相关的难题,比如如下这些场景: 1.为什么明明有包含搜索关键词的文档,但结果里面就没有相关文档呢? 2.我存进去的文档到底被分成哪些词(term)了? 3.我自定义分词规则,但感觉好麻烦呢,无从下手 1.从一个实例出发,如下创建一个文档: 然 ...
分类:
其他好文 时间:
2019-03-21 20:13:15
阅读次数:
192
中文词频统计 1. 下载一长篇中文小说。 2. 从文件读取待分析文本。 3. 安装并使用jieba进行中文分词。 pip install jieba import jieba ljieba.lcut(text) 4. 更新词库,加入所分析对象的专业词汇。 jieba.add_word('天罡北斗阵' ...
分类:
其他好文 时间:
2019-03-18 19:52:31
阅读次数:
169
中文词频统计 中文词频统计 1. 下载一长篇中文小说。 2. 从文件读取待分析文本。 3. 安装并使用jieba进行中文分词。 pip install jieba import jieba ljieba.lcut(text) 4. 更新词库,加入所分析对象的专业词汇。 jieba.add_word( ...
分类:
其他好文 时间:
2019-03-18 18:31:05
阅读次数:
194
中文词频统计 1. 下载一长篇中文小说。 2. 从文件读取待分析文本。 3. 安装并使用jieba进行中文分词。 pip install jieba import jieba ljieba.lcut(text) 4. 更新词库,加入所分析对象的专业词汇。 jieba.add_word('天罡北斗阵' ...
分类:
其他好文 时间:
2019-03-18 18:16:09
阅读次数:
165
报错: LookupError: ********************************************************************** Resource punkt not found. Please use the NLTK Downloader to ob ...
分类:
其他好文 时间:
2019-03-16 18:05:39
阅读次数:
434