搜索关键字：分词，搜索到2158个结果！码迷,mamicode.com！

【文本挖掘】模拟退火英文分词

大概原理是找到文本中重复项最多的文本作为词典，代价函数为词典的累计词长和文本分词数之和，迭代找到代价函数最小值所对应的词典和分词结果。方法简单，跑出来的结果也挺有意思。 1 from random import randint 2 3 4 def segment(text,segs): 5 ...

分类：其他好文时间：2015-02-15 14:56:37 阅读次数：155

IKAnalyzer 中文分词器

IK Analyzer 是一个开源的，基于java语言开发的轻量级的中文分词工具包。可与lucene配合使用。项目地址：http://www.oschina.net/p/ikanalyzer/ 下载页面：http://git.oschina.net/wltea/IK-Analyzer-2012FF 示例代码： {CSDN:CODE:602681} 该代码的工程结构：下图...

分类：其他好文时间：2015-02-11 18:44:37 阅读次数：193

在Solr4.10配置IKAnalyzer 同义词、扩展词库、停顿词详解

在配置IKAnalyzer 同义词时，遇到一些麻烦，配置了半天终于成功，在此做个记录，方便以后参考其实配置也简单，主要是jar包，IKAnalyzer貌似已经没人更新了……本人也是从别人那下载的才可用，我也将jar包上传至本人资源，路径为：http://download.csdn.net/download/tjcyjd/8430613 在solr的配置文件schema.xml中添加：...

分类：其他好文时间：2015-02-10 11:16:03 阅读次数：373

使用Discuz关键词服务器实现PHP中文分词

不同于使用自己的服务器进行分词，Discuz!在线中文分词服务是基于API返回分词结果的。在项目中，我们只需要一个函数即可方便地进行分词、关键词提取。以下是根据Discuz!在线分词服务API写的函数，测试可正常运行：复制代码代码如下:/*** DZ在线中文分词* @param $title str...

分类：Web程序时间：2015-02-09 12:45:54 阅读次数：132

深度解析中文分词器算法（最大正向/逆向匹配）

1：非基于词典的分词（人工智能领域）相当于人工智能领域计算。一般用于机器学习，特定领域等方法，这种在特定领域的分词可以让计算机在现有的规则模型中，推理如何分词。在某个领域（垂直领域）分词精度较高。例：比较流行的语义网：基于本体的语义检索。 2：基于词典的分词（最为常见）这类分词算法比较常见，比如正向/逆向匹配。例如： mmseg分词器就是一种基于词典的分词算法。以最大正向匹配为主，多种消除歧义算法为辅。但是不管怎么分。该类分词方法，分词精度不高。由于中文比较复杂，不推荐采用正向...

分类：编程语言时间：2015-02-08 09:12:11 阅读次数：327

python资源

爬虫：scrapy,beautifulsoup自然语言处理：nltk,Pattern(Google,Twitter,andWikipediaAPIs,awebcrawler,aHTMLDOMparser),结巴分词科学计算：NumPy,SciPy,matplotlib机器学习、数据挖掘：scikit-learn,pandas,MDP(neuralnetworks),PyBrain(neuralnetworks),Theano(GPU,deeplearn..

分类：编程语言时间：2015-02-07 19:02:28 阅读次数：185

为Elasticsearch添加中文分词

Elasticsearch的中文分词很烂，所以我们需要安装ik。首先从github上下载项目，解压：cd /tmpwget https://github.com/medcl/elasticsearch-analysis-ik/archive/master.zipunzip master.zipcd ...

分类：其他好文时间：2015-02-05 20:22:04 阅读次数：204

elasticsearch 的mapping根据不同的数据格式设定属性

申明：学习探讨笔记，非结果性定义。里面很多可能是错误的，参考价值不大 elasticsearch?的mapping 订单号如：ATTS000928732 类型不分词。 index: not_analyzed 订单号是全部数据如： 63745345637? 这样的分词...

分类：移动开发时间：2015-02-05 13:49:06 阅读次数：454

单词记忆-3

7.accommodate: 容纳；使适应；向...提供住处；帮忙；（眼）做调节，调节眼球的晶状体过去式：/ 过去分词： /现在分词： /第三人称单数： accommodated/ accommodated / accommodating / accommodates accommod...

分类：其他好文时间：2015-02-04 23:10:26 阅读次数：249

compass和paoding分词器的基本使用

1.实现搜索的技术:数据库查询：like查询；lucene全文检索技术；1）在数据量比较大，查询字段比较多的情况下，如果采用数据库like sql查询,性能比较差；采用lucene来查询，性能相对于数据库like sql查询要好些；2）如果采用lucene进行搜索，搜索到的结果相关度比较高，而且会把...

分类：其他好文时间：2015-02-03 21:13:09 阅读次数：267

共2158条上一页 1 ... 182 183 184 185 186 ... 216 下一页

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)