搜索关键字：分词，搜索到2158个结果！码迷,mamicode.com！

NLTK基础

Python上著名的?然语?处理库 ?带语料库，词性分类库 ?带分类，分词，等等功能强?的社区?持还有N多的简单版wrapper 安装语料库 # 方式一 import nltk nltk.download() showing info https://raw.githubusercontent. ...

分类：其他好文时间：2019-03-29 00:39:39 阅读次数：238

局部敏感哈希（LSH）之simhash和minhash

minhash simhash SimHash的工作原理 SimHash算法工作流程图： SimHash的工作原理 SimHash算法工作流程图： 1、分词，把需要判断文本分词形成这个文章的特征单词。最后形成去掉噪音词的单词序列并为每个词加上权重，我们假设权重分为5个级别（1~5）。比如：“ 美国“ ...

分类：其他好文时间：2019-03-27 15:29:09 阅读次数：306

spark MLlib实现的基于朴素贝叶斯（NaiveBayes）的中文文本自动分类

1.自动文本分类是对大量的非结构化的文字信息（文本文档、网页等）按照给定的分类体系，根据文字信息内容分到指定的类别中去，是一种有指导的学习过程。分类过程采用基于统计的方法和向量空间模型可以对常见的文本网页信息进行分类，分类的准确率可以达到85%以上。分类速度50篇/秒。 2.要想分类必须先分词，进 ...

分类：其他好文时间：2019-03-24 23:06:57 阅读次数：197

Elasticsearch（二）

一、Java API操作 1. API基本操作 2. 条件查询QueryBuilder 3. 映射相关操作二、IK分词器 1. IK分词器的安装 2. IK分词器的使用三、Logstash 1. Logstash简介 2. Logstash 安装 3. Logstash 配置四、Kibana ...

分类：其他好文时间：2019-03-24 13:50:30 阅读次数：181

中文词频统计与词云生成

https://edu.cnblogs.com/campus/gzcc/GZCC-16SE1/homework/2822 中文词频统计 1. 下载一长篇中文小说。 2. 从文件读取待分析文本。 3. 安装并使用jieba进行中文分词。 pip install jieba import jieba j ...

分类：其他好文时间：2019-03-22 18:41:18 阅读次数：211

[ES]elasticsearch章5　ES的分词（一）

初次接触 Elasticsearch 的同学经常会遇到分词相关的难题，比如如下这些场景：１.为什么明明有包含搜索关键词的文档，但结果里面就没有相关文档呢？２.我存进去的文档到底被分成哪些词(term)了？３.我自定义分词规则，但感觉好麻烦呢，无从下手 1.从一个实例出发，如下创建一个文档：然 ...

分类：其他好文时间：2019-03-21 20:13:15 阅读次数：192

中文词频统计

中文词频统计 1. 下载一长篇中文小说。 2. 从文件读取待分析文本。 3. 安装并使用jieba进行中文分词。 pip install jieba import jieba ljieba.lcut(text) 4. 更新词库，加入所分析对象的专业词汇。 jieba.add_word('天罡北斗阵' ...

分类：其他好文时间：2019-03-18 19:52:31 阅读次数：169

中文词频统计

中文词频统计中文词频统计 1. 下载一长篇中文小说。 2. 从文件读取待分析文本。 3. 安装并使用jieba进行中文分词。 pip install jieba import jieba ljieba.lcut(text) 4. 更新词库，加入所分析对象的专业词汇。 jieba.add_word( ...

分类：其他好文时间：2019-03-18 18:31:05 阅读次数：194

中文词频统计

中文词频统计 1. 下载一长篇中文小说。 2. 从文件读取待分析文本。 3. 安装并使用jieba进行中文分词。 pip install jieba import jieba ljieba.lcut(text) 4. 更新词库，加入所分析对象的专业词汇。 jieba.add_word('天罡北斗阵' ...

分类：其他好文时间：2019-03-18 18:16:09 阅读次数：165

nltk 的分词器punkt： ssl问题无法下载

报错： LookupError: ********************************************************************** Resource punkt not found. Please use the NLTK Downloader to ob ...

分类：其他好文时间：2019-03-16 18:05:39 阅读次数：434