英文分词可以使用空格,中文就不同了,一些分词的原理后面再来说,先说下python中常用的jieba这个工具。 首先要注意自己在做练习时不要使用jieba.Py命名文件,否则会出现 jieba has no attribute named cut …等这些,如果删除了自己创建的jieba.py还有错误 ...
分类:
编程语言 时间:
2018-02-24 18:00:16
阅读次数:
759
由于我安装的是 Python3 ,所以我是通过 pip3 来安装 jieba 分词模块: 执行完上面的一步之后,我们就已经成功安装了 jieba 分词模块了,以下我们来进行一个简单的测试,看看我们是否安装成功: 下面我们来看看结果: 由上图可以得出,cut 的结果返回的是一个生成器,最后的分词结果是 ...
分类:
编程语言 时间:
2018-02-23 23:57:02
阅读次数:
720
文本数据预处理,包括文档切分、文本分词、去停用词(包括标点、数字、单字和其它一些无意义的词)、文本特征提取、词频统计、文本向量化等操作。 1.文档切分 文档切分这个操作是可选的,取决于你获取到的文档集合的形式。如果你得到的文档集合本身就是一篇一篇文章分开的,那么这一步就可以省略了。反之,如果文档集合 ...
分类:
其他好文 时间:
2018-02-23 18:53:26
阅读次数:
1079
Field.Store.YES或者NO(存储域选项) 设置为YES表示或把这个域中的内容完全存储到文件中,方便进行文本的还原 设置为NO表示把这个域的内容不存储到文件中,但是可以被索引,此时内容无法完全还原(doc.get) Field.Index(索引选项) Index.ANALYZED:进行分词 ...
分类:
Web程序 时间:
2018-02-22 11:38:03
阅读次数:
852
背景: 由于本人使用的是6.0以上的版本es,在使用发现很多中文已过时。ES6.0以后有很多参数变化。 现我根据官网总结mapping最新的参数,希望能对大家有用处。 新增字段: eager_global_ordinals 删除的字段: include_in_all 以下是所有最新字段的详细说明 ...
分类:
移动开发 时间:
2018-02-13 22:13:38
阅读次数:
273
Lucene.net和PanGu分词实现全文检索 Lucene.net(4.8.0) 学习问题记录五: JIEba分词和Lucene的结合,以及对分词器的思考 前言:目前自己在做使用Lucene.net和PanGu分词实现全文检索的工作,不过自己是把别人做好的项目进行迁移。因为项目整体要迁移到ASP ...
分类:
Web程序 时间:
2018-02-10 22:37:55
阅读次数:
1088
solr7.2.1环境搭建和配置ik中文分词器 安装环境:Jdk 1.8、 windows 10 安装包准备: solr 各种版本集合下载:http://archive.apache.org/dist/lucene/solr/ tomcat下载(apache-tomcat-8.5.27-window ...
分类:
其他好文 时间:
2018-02-10 20:05:33
阅读次数:
230
InnoDB全文索引:N-gram Parser【转】 MySql5.7 建立全文索引 InnoDB默认的全文索引parser非常合适于Latin,因为Latin是通过空格来分词的。但对于像中文,日文和韩文来说,没有这样的分隔符。一个词可以由多个字来组成,所以我们需要用不同的方式来处理。在MySQL ...
分类:
数据库 时间:
2018-02-09 20:26:58
阅读次数:
210
前言:目前自己在做使用Lucene.net和PanGu分词实现全文检索的工作,不过自己是把别人做好的项目进行迁移。因为项目整体要迁移到ASP.NET Core 2.0版本,而Lucene使用的版本是3.6.0 ,PanGu分词也是对应Lucene3.6.0版本的。不过好在Lucene.net 已经有 ...
分类:
Web程序 时间:
2018-02-08 15:37:54
阅读次数:
304
"CoreNLP" 是由斯坦福大学开源的一套Java NLP工具,提供诸如:词性标注(part of speech (POS) tagger)、命名实体识别(named entity recognizer (NER))、情感分析(sentiment analysis)等功能。 【开源中文分词工具探析 ...
分类:
其他好文 时间:
2018-02-07 22:45:58
阅读次数:
902