码迷,mamicode.com
首页 >  
搜索关键字:分词    ( 2158个结果
solrcloud和zookeeper的搭建、使用、心得、教训
公司的solr线上服务器,分成差不多是个core给不同的部门不同的业务需求来使用。我接手以来,问题多多,烦扰多多。有不少问题亟待解决,首当其冲的是搜索准确度、数据同步。搜索准确度已经通过改用ansj分词器和不断优化的个人词库和停用词库来解决,这是个不断优化的过程,需要长时间的跟进才有明显效果。第二个...
分类:其他好文   时间:2014-07-19 15:19:33    阅读次数:846
java读取中文分词工具(2)
/* * 文件格式:已分词的中文文本,每个词语空格分割,每行一个段落。 * 这个类适合读取每行数量较少的文本,比如分好段落的文本,一个段落一行存储。 * 读取一行,步长为1,返回词组。不会跨段落生成词组。 * 两种模式: * 1 读到文件末尾,结束 * 2 读到文件末尾,从头再来 */...
分类:编程语言   时间:2014-07-19 08:07:56    阅读次数:324
最大概率法分词中词频惩罚因子的作用探究
在最大概率法分词的程序中,由于每个词出现的次数分布非常不均匀,而且我们要计算每个词出现的概率,对于出现次数比较少的词概率就很小,求句子中词的概率之积的时候,需要将好多非常小的数作乘法,可能会将超出计算机所能表示的数的最小范围。为了便于计算,常常要将每个词的概率求对数后在进行计算,但是由于对概率求对数后变为负值,因此要求对应的相反数。所以一个词出现的次数越多,最后求得对应的值越小,我们将这个值称为这...
分类:其他好文   时间:2014-07-19 02:46:06    阅读次数:236
Python TF-IDF计算100份文档关键词权重
上一篇博文中,我们使用结巴分词对文档进行分词处理,但分词所得结果并不是每个词语都是有意义的(即该词对文档的内容贡献少),那么如何来判断词语对文档的重要度呢,这里介绍一种方法:TF-IDF。 一,TF-IDF介绍 TF-IDF(Term Frequency–Inverse Document F...
分类:编程语言   时间:2014-07-18 08:30:03    阅读次数:620
python运维开发笔记4
1.函数如何被调用,通过return返回值来调用2.生成器和return区别yield生成器返回对象,可以迭代可以执行glob模块类似shell中的正则匹配shlex模块Popen将命令参数直接分词cmd="psax-opid,ppid,cmd"shlex.split(cmd)[‘ps‘,‘ax‘,‘-o‘,‘pid,ppid,cmd‘][‘mysql‘,‘-u‘,‘root‘,‘-p123‘..
分类:编程语言   时间:2014-07-17 08:00:41    阅读次数:366
python抓取伯乐在线的所有文章,对标题分词后存入mongodb中
python抓取伯乐在线的所有文章,对标题分词后存入mongodb中...
分类:数据库   时间:2014-07-16 17:09:20    阅读次数:289
IKAnalyzer 分词
IK Analyzer 3.0特性采用了特有的"正向迭代最细粒度切分算法",具有80万字/秒的高速处理能力采用了多子处理器分析模式,支持:英文字母(IP地址、Email、URL)、数字(日期,常用中文数量词,罗马数字,科学计数法),中文词汇(姓名、地名处理)等分词处理。优化的词典存储,更小的内存占用...
分类:其他好文   时间:2014-07-16 00:54:37    阅读次数:800
Python 结巴分词
今天的任务是对txt文本进行分词,有幸了解到"结巴"中文分词,其愿景是做最好的Python中文分词组件。有兴趣的朋友请点这里。jieba支持三种分词模式: *精确模式,试图将句子最精确地切开,适合文本分析; *全模式,把句子中所有的可以成词的词语都扫描出来, 速度非常快,但是不能解决歧义; *...
分类:编程语言   时间:2014-07-15 23:14:45    阅读次数:679
solr中文分词
IK是solr常用的中文分词,其配置比较难搞,试了好多次才搞定:将jar放入tomcat下WEB-INF/libconfig.xml,ext.dic,stopword.dic放入WEB-INF/classes下另外,solr4+需要使用IK_2012_ff,不要使用IK_2012_u6IK实际的效果...
分类:其他好文   时间:2014-07-15 09:52:49    阅读次数:231
中文分词实践(基于R语言)
背景:分析用户在世界杯期间讨论最多的话题。 思路:把用户关于世界杯的帖子拉下来,然后做中文分词+词频统计,最后将统计结果简单做个标签云,效果如下 后续:中文分词是中文信息处理的基础,分词之后,其实还有特别多有趣的文本挖掘工作可以做,也是个知识发现的过程,以后有机会再学习下。...
分类:其他好文   时间:2014-07-13 18:53:55    阅读次数:367
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!