码迷,mamicode.com
首页 >  
搜索关键字:分词    ( 2158个结果
【文本挖掘】模拟退火英文分词
大概原理是找到文本中重复项最多的文本作为词典,代价函数为词典的累计词长和文本分词数之和,迭代找到代价函数最小值所对应的词典和分词结果。方法简单,跑出来的结果也挺有意思。 1 from random import randint 2 3 4 def segment(text,segs): 5 ...
分类:其他好文   时间:2015-02-15 14:56:37    阅读次数:155
IKAnalyzer 中文分词器
IK Analyzer 是一个开源的,基于java语言开发的轻量级的中文分词工具包。可与lucene配合使用。 项目地址:http://www.oschina.net/p/ikanalyzer/ 下载页面:http://git.oschina.net/wltea/IK-Analyzer-2012FF 示例代码: {CSDN:CODE:602681} 该代码的工程结构:下图...
分类:其他好文   时间:2015-02-11 18:44:37    阅读次数:193
在Solr4.10配置IKAnalyzer 同义词、扩展词库、停顿词详解
在配置IKAnalyzer 同义词时,遇到一些麻烦,配置了半天终于成功,在此做个记录,方便以后参考 其实配置也简单,主要是jar包,IKAnalyzer貌似已经没人更新了……本人也是从别人那下载的才可用,我也将jar包上传至本人资源, 路径为:http://download.csdn.net/download/tjcyjd/8430613 在solr的配置文件schema.xml中添加:...
分类:其他好文   时间:2015-02-10 11:16:03    阅读次数:373
使用Discuz关键词服务器实现PHP中文分词
不同于使用自己的服务器进行分词,Discuz!在线中文分词服务是基于API返回分词结果的。在项目中,我们只需要一个函数即可方便地进行分词、关键词提取。以下是根据Discuz!在线分词服务API写的函数,测试可正常运行:复制代码代码如下:/*** DZ在线中文分词* @param $title str...
分类:Web程序   时间:2015-02-09 12:45:54    阅读次数:132
深度解析中文分词器算法(最大正向/逆向匹配)
1:非基于词典的分词(人工智能领域) 相当于人工智能领域计算。一般用于机器学习,特定领域等方法,这种在特定领域的分词可以让计算机在现有的规则模型中, 推理如何分词。在某个领域(垂直领域)分词精度较高。例:比较流行的语义网:基于本体的语义检索。 2:基于词典的分词(最为常见) 这类分词算法比较常见,比如正向/逆向匹配。例如: mmseg分词器 就是一种基于词典的分词算法。以最大正向匹配为主,多 种 消除歧义算法为辅。但是不管怎么分。该类分词方法,分词精度不高。由于中文比较复杂,不推荐采用正向...
分类:编程语言   时间:2015-02-08 09:12:11    阅读次数:327
python资源
爬虫:scrapy,beautifulsoup自然语言处理:nltk,Pattern(Google,Twitter,andWikipediaAPIs,awebcrawler,aHTMLDOMparser),结巴分词科学计算:NumPy,SciPy,matplotlib机器学习、数据挖掘:scikit-learn,pandas,MDP(neuralnetworks),PyBrain(neuralnetworks),Theano(GPU,deeplearn..
分类:编程语言   时间:2015-02-07 19:02:28    阅读次数:185
为Elasticsearch添加中文分词
Elasticsearch的中文分词很烂,所以我们需要安装ik。首先从github上下载项目,解压:cd /tmpwget https://github.com/medcl/elasticsearch-analysis-ik/archive/master.zipunzip master.zipcd ...
分类:其他好文   时间:2015-02-05 20:22:04    阅读次数:204
elasticsearch 的mapping根据不同的数据格式设定属性
申明:学习探讨笔记,非结果性定义。里面很多可能是错误的,参考价值不大 elasticsearch?的mapping 订单号 如:ATTS000928732 类型不分词。 index: not_analyzed 订单号是全部数据 如: 63745345637? 这样的分词...
分类:移动开发   时间:2015-02-05 13:49:06    阅读次数:454
单词记忆-3
7.accommodate: 容纳;使适应;向...提供住处;帮忙;(眼)做调节,调节眼球的晶状体 过去式:/ 过去分词: /现在分词: /第三人称单数: accommodated/ accommodated / accommodating / accommodates accommod...
分类:其他好文   时间:2015-02-04 23:10:26    阅读次数:249
compass和paoding分词器的基本使用
1.实现搜索的技术:数据库查询:like查询;lucene全文检索技术;1)在数据量比较大,查询字段比较多的情况下,如果采用数据库like sql查询,性能比较差;采用lucene来查询,性能相对于数据库like sql查询要好些;2)如果采用lucene进行搜索,搜索到的结果相关度比较高,而且会把...
分类:其他好文   时间:2015-02-03 21:13:09    阅读次数:267
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!