搜索关键字：分词，搜索到2158个结果！码迷,mamicode.com！

自然语言处理之jieba分词

英文分词可以使用空格，中文就不同了，一些分词的原理后面再来说，先说下python中常用的jieba这个工具。首先要注意自己在做练习时不要使用jieba.Py命名文件，否则会出现 jieba has no attribute named cut …等这些，如果删除了自己创建的jieba.py还有错误 ...

分类：编程语言时间：2018-02-24 18:00:16 阅读次数：759

Python3.6 结巴分词安装和使用

由于我安装的是 Python3 ，所以我是通过 pip3 来安装 jieba 分词模块：执行完上面的一步之后，我们就已经成功安装了 jieba 分词模块了，以下我们来进行一个简单的测试，看看我们是否安装成功：下面我们来看看结果：由上图可以得出，cut 的结果返回的是一个生成器，最后的分词结果是 ...

分类：编程语言时间：2018-02-23 23:57:02 阅读次数：720

文本分类的预处理

文本数据预处理，包括文档切分、文本分词、去停用词（包括标点、数字、单字和其它一些无意义的词）、文本特征提取、词频统计、文本向量化等操作。 1.文档切分文档切分这个操作是可选的，取决于你获取到的文档集合的形式。如果你得到的文档集合本身就是一篇一篇文章分开的，那么这一步就可以省略了。反之，如果文档集合 ...

分类：其他好文时间：2018-02-23 18:53:26 阅读次数：1079

Lucene——Field.Store（存储域选项）及Field.Index（索引选项）

Field.Store.YES或者NO（存储域选项）设置为YES表示或把这个域中的内容完全存储到文件中，方便进行文本的还原设置为NO表示把这个域的内容不存储到文件中，但是可以被索引，此时内容无法完全还原（doc.get) Field.Index（索引选项） Index.ANALYZED：进行分词 ...

分类：Web程序时间：2018-02-22 11:38:03 阅读次数：852

ElasticSearch 6.2 Mapping参数说明

背景：由于本人使用的是6.0以上的版本es，在使用发现很多中文已过时。ES6.0以后有很多参数变化。现我根据官网总结mapping最新的参数，希望能对大家有用处。新增字段： eager_global_ordinals 删除的字段： include_in_all 以下是所有最新字段的详细说明 ...

分类：移动开发时间：2018-02-13 22:13:38 阅读次数：273

]NET Core Lucene.net和PanGu分词实现全文检索

Lucene.net和PanGu分词实现全文检索 Lucene.net(4.8.0) 学习问题记录五: JIEba分词和Lucene的结合，以及对分词器的思考前言：目前自己在做使用Lucene.net和PanGu分词实现全文检索的工作，不过自己是把别人做好的项目进行迁移。因为项目整体要迁移到ASP ...

分类：Web程序时间：2018-02-10 22:37:55 阅读次数：1088

Solr7.2.1环境搭建和配置ik中文分词器

solr7.2.1环境搭建和配置ik中文分词器安装环境：Jdk 1.8、 windows 10 安装包准备： solr 各种版本集合下载：http://archive.apache.org/dist/lucene/solr/ tomcat下载（apache-tomcat-8.5.27-window ...

分类：其他好文时间：2018-02-10 20:05:33 阅读次数：230

MySQL 全文检索 ngram插件

InnoDB全文索引：N-gram Parser【转】 MySql5.7 建立全文索引 InnoDB默认的全文索引parser非常合适于Latin，因为Latin是通过空格来分词的。但对于像中文，日文和韩文来说，没有这样的分隔符。一个词可以由多个字来组成，所以我们需要用不同的方式来处理。在MySQL ...

分类：数据库时间：2018-02-09 20:26:58 阅读次数：210

Lucene.net(4.8.0) 学习问题记录五: JIEba分词和Lucene的结合，以及对分词器的思考

前言：目前自己在做使用Lucene.net和PanGu分词实现全文检索的工作，不过自己是把别人做好的项目进行迁移。因为项目整体要迁移到ASP.NET Core 2.0版本,而Lucene使用的版本是3.6.0 ，PanGu分词也是对应Lucene3.6.0版本的。不过好在Lucene.net 已经有 ...

分类：Web程序时间：2018-02-08 15:37:54 阅读次数：304

开源中文分词工具探析（六）：Stanford CoreNLP

"CoreNLP" 是由斯坦福大学开源的一套Java NLP工具，提供诸如：词性标注（part of speech (POS) tagger）、命名实体识别（named entity recognizer (NER)）、情感分析（sentiment analysis）等功能。【开源中文分词工具探析 ...

分类：其他好文时间：2018-02-07 22:45:58 阅读次数：902

共2158条上一页 1 ... 87 88 89 90 91 ... 216 下一页

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)