引入模块: 1、中文分词:jieba 2、绘图库:matplotlib 3、数组运算、数学函数库numpy 例: import numpy as np from matplotlib import pyplot as plt x = np.arange(1,11) y = 2 * x + 5 plt ...
分类:
编程语言 时间:
2019-05-21 15:58:22
阅读次数:
116
最近发现了snownlp这个库,这个类库是专门针对中文文本进行文本挖掘的。 主要功能: 中文分词(Character-Based Generative Model) 词性标注(TnT 3-gram 隐马) 情感分析(现在训练数据主要是买卖东西时的评价,所以对其他的一些可能效果不是很好,待解决) 文本 ...
分类:
其他好文 时间:
2019-05-12 21:23:58
阅读次数:
211
最近学习主题模型pLSA、LDA,就想拿来试试中文。首先就是找文本进行切词、去停用词等预处理,这里我找了开源工具IKAnalyzer2012,下载地址:(:(注意:这里尽量下载最新版本,我这里用的IKAnalyzer2012.zip 这本版本后来测试时发现bug,这里建议IKAnalyzer2012 ...
分类:
其他好文 时间:
2019-04-15 18:10:26
阅读次数:
278
它在哪里呢? 非常重要! [hadoop@HadoopMaster custom]$ pwd/home/hadoop/app/elasticsearch 2.4.3/plugins/ik/config/custom[hadoop@HadoopMaster c ...
分类:
其他好文 时间:
2019-04-15 18:10:12
阅读次数:
180
首先声明:我对Lucene.Net并不熟悉,但搜索确实是分词的一个重要应用,所以这里还是尝试将两者集成起来,也许对你有一参考。 看到了两个中文分词与Lucene.Net的集成项目:Lucene.Net.Analysis.PanGu和Lucene.Net.Analysis.MMSeg,参考其中的代码实 ...
分类:
Web程序 时间:
2019-04-10 17:52:46
阅读次数:
163
一、本文内容简介 二、具体内容 1. 中文分词的基本概念 2.关于NLPIR(北理工张华平版中文分词系统)的基本情况 3.具体SDK模块(C++)的组装方式 ①准备内容: ②开始组装 三.注意事项 1. 中文分词的基本概念 2.关于NLPIR(北理工张华平版中文分词系统)的基本情况 3.具体SDK模 ...
分类:
编程语言 时间:
2019-04-06 19:05:40
阅读次数:
200
下载ik分词器,由于是solr8.0,一些ik分词器版本可能不兼容,以下是个人亲测可行的版本 链接:https://pan.baidu.com/s/1_Va-9af-jMcqepGQ9nWo3Q 提取码:0a3y 然后将解压出来的两个jar包放到以下路径: 其它的三个文件放到以下路径: 如果没有cl ...
分类:
其他好文 时间:
2019-04-06 17:19:38
阅读次数:
136
恢复内容开始 运用jieba库分词 一、jieba库基本介绍 1、jieba库概述 jieba是优秀的中文分词第三方库 - 中文文本需要通过分词获得单个的词语 - jieba是优秀的中文分词第三方库,需要额外安装 - jieba库提供三种分词模式,最简单只需掌握一个函数 2、jieba分词的原理 J ...
分类:
其他好文 时间:
2019-04-04 22:58:40
阅读次数:
242
jieba库的使用: (1) jieba库是一款优秀的 Python 第三方中文分词库,jieba 支持三种分词模式:精确模式、全模式和搜索引擎模式,下面是三种模式的特点。 精确模式:试图将语句最精确的切分,不存在冗余数据,适合做文本分析 全模式:将语句中所有可能是词的词语都切分出来,速度很快,但是 ...
分类:
其他好文 时间:
2019-04-04 00:03:40
阅读次数:
221