搜索关键字：分词，搜索到2158个结果！码迷,mamicode.com！

scws安装

# 下载字典 # 编译php扩展 # 在 php.ini 中加入以下几行 # 重启php # 在php程序中用 ini_get('scws.default.fpath') 读取scws.default.fpath目默认字典录设置 # 测试分词程序 ...

分类：其他好文时间：2019-04-24 19:32:34 阅读次数：110

配置smartcn分词器

复制中的至中编辑managed schema文件加入测试分词效果 ...

分类：其他好文时间：2019-04-16 14:38:56 阅读次数：295

ELK(elasticsearch+kibana+logstash)搜索引擎(二)： elasticsearch基础教程

1.elasticsearch的结构首先elasticsearch目前的结构为 /index/type/id id对应的就是存储的文档ID，elasticsearch一般将数据以JSON格式存储。我们可以将elasticsearch和关系型数据库进行比较，index相当于关系型数据库中的datab ...

分类：其他好文时间：2019-04-16 01:21:34 阅读次数：172

（转）ElasticSearch教程——汇总篇

https://blog.csdn.net/gwd1154978352/article/details/82781731 环境搭建篇 ElasticSearch教程——安装 ElasticSearch教程——安装Head插件 ElasticSearch教程——安装IK分词器插件 ElasticSea ...

分类：其他好文时间：2019-04-15 18:28:46 阅读次数：206

IKAnalyzer进行中文分词和去停用词

最近学习主题模型pLSA、LDA，就想拿来试试中文。首先就是找文本进行切词、去停用词等预处理，这里我找了开源工具IKAnalyzer2012，下载地址：(：(注意：这里尽量下载最新版本，我这里用的IKAnalyzer2012.zip 这本版本后来测试时发现bug，这里建议IKAnalyzer2012 ...

分类：其他好文时间：2019-04-15 18:10:26 阅读次数：278

Elasticsearch之中文分词器插件es-ik的自定义词库

它在哪里呢？非常重要！ [hadoop@HadoopMaster custom]$ pwd/home/hadoop/app/elasticsearch 2.4.3/plugins/ik/config/custom[hadoop@HadoopMaster c ...

分类：其他好文时间：2019-04-15 18:10:12 阅读次数：180

jieba库

一、jieba 库简介 (1) jieba 库的分词原理是利用一个中文词库，将待分词的内容与分词词库进行比对，通过图结构和动态规划方法找到最大概率的词组；除此之外，jieba 库还提供了增加自定义中文单词的功能。 (2) jieba 库支持3种分词模式：精确模式：将句子最精确地切开，适合文本分析。 ...

分类：其他好文时间：2019-04-15 00:42:17 阅读次数：248

jieba.NET与Lucene.Net的集成

首先声明：我对Lucene.Net并不熟悉，但搜索确实是分词的一个重要应用，所以这里还是尝试将两者集成起来，也许对你有一参考。看到了两个中文分词与Lucene.Net的集成项目：Lucene.Net.Analysis.PanGu和Lucene.Net.Analysis.MMSeg，参考其中的代码实 ...

分类：Web程序时间：2019-04-10 17:52:46 阅读次数：163

TF-IDF

1. 文本向量化特征的不足在将文本分词并向量化后，我们可以得到词汇表中每个词在各个文本中形成的词向量，比如在文本挖掘预处理之向量化与Hash Trick这篇文章中，我们将下面4个短文本做了词频统计： corpus=["I come to China to travel", "This is a c ...

分类：其他好文时间：2019-04-07 18:07:57 阅读次数：161

如何用Python从海量文本抽取主题？

摘自https://www.jianshu.com/p/fdde9fc03f94 你在工作、学习中是否曾因信息过载叫苦不迭？有一种方法能够替你读海量文章，并将不同的主题和对应的关键词抽取出来，让你谈笑间观其大略。本文使用Python对超过1000条文本做主题抽取，一步步带你体会非监督机器学习LDA方 ...

分类：编程语言时间：2019-04-07 09:18:35 阅读次数：233

共2158条上一页 1 ... 44 45 46 47 48 ... 216 下一页

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)