公司的solr线上服务器,分成差不多是个core给不同的部门不同的业务需求来使用。我接手以来,问题多多,烦扰多多。有不少问题亟待解决,首当其冲的是搜索准确度、数据同步。搜索准确度已经通过改用ansj分词器和不断优化的个人词库和停用词库来解决,这是个不断优化的过程,需要长时间的跟进才有明显效果。第二个...
分类:
其他好文 时间:
2014-07-19 15:19:33
阅读次数:
846
/*
* 文件格式:已分词的中文文本,每个词语空格分割,每行一个段落。
* 这个类适合读取每行数量较少的文本,比如分好段落的文本,一个段落一行存储。
* 读取一行,步长为1,返回词组。不会跨段落生成词组。
* 两种模式:
* 1 读到文件末尾,结束
* 2 读到文件末尾,从头再来
*/...
分类:
编程语言 时间:
2014-07-19 08:07:56
阅读次数:
324
在最大概率法分词的程序中,由于每个词出现的次数分布非常不均匀,而且我们要计算每个词出现的概率,对于出现次数比较少的词概率就很小,求句子中词的概率之积的时候,需要将好多非常小的数作乘法,可能会将超出计算机所能表示的数的最小范围。为了便于计算,常常要将每个词的概率求对数后在进行计算,但是由于对概率求对数后变为负值,因此要求对应的相反数。所以一个词出现的次数越多,最后求得对应的值越小,我们将这个值称为这...
分类:
其他好文 时间:
2014-07-19 02:46:06
阅读次数:
236
上一篇博文中,我们使用结巴分词对文档进行分词处理,但分词所得结果并不是每个词语都是有意义的(即该词对文档的内容贡献少),那么如何来判断词语对文档的重要度呢,这里介绍一种方法:TF-IDF。 一,TF-IDF介绍 TF-IDF(Term Frequency–Inverse Document F...
分类:
编程语言 时间:
2014-07-18 08:30:03
阅读次数:
620
1.函数如何被调用,通过return返回值来调用2.生成器和return区别yield生成器返回对象,可以迭代可以执行glob模块类似shell中的正则匹配shlex模块Popen将命令参数直接分词cmd="psax-opid,ppid,cmd"shlex.split(cmd)[‘ps‘,‘ax‘,‘-o‘,‘pid,ppid,cmd‘][‘mysql‘,‘-u‘,‘root‘,‘-p123‘..
分类:
编程语言 时间:
2014-07-17 08:00:41
阅读次数:
366
python抓取伯乐在线的所有文章,对标题分词后存入mongodb中...
分类:
数据库 时间:
2014-07-16 17:09:20
阅读次数:
289
IK Analyzer 3.0特性采用了特有的"正向迭代最细粒度切分算法",具有80万字/秒的高速处理能力采用了多子处理器分析模式,支持:英文字母(IP地址、Email、URL)、数字(日期,常用中文数量词,罗马数字,科学计数法),中文词汇(姓名、地名处理)等分词处理。优化的词典存储,更小的内存占用...
分类:
其他好文 时间:
2014-07-16 00:54:37
阅读次数:
800
今天的任务是对txt文本进行分词,有幸了解到"结巴"中文分词,其愿景是做最好的Python中文分词组件。有兴趣的朋友请点这里。jieba支持三种分词模式: *精确模式,试图将句子最精确地切开,适合文本分析; *全模式,把句子中所有的可以成词的词语都扫描出来, 速度非常快,但是不能解决歧义; *...
分类:
编程语言 时间:
2014-07-15 23:14:45
阅读次数:
679
IK是solr常用的中文分词,其配置比较难搞,试了好多次才搞定:将jar放入tomcat下WEB-INF/libconfig.xml,ext.dic,stopword.dic放入WEB-INF/classes下另外,solr4+需要使用IK_2012_ff,不要使用IK_2012_u6IK实际的效果...
分类:
其他好文 时间:
2014-07-15 09:52:49
阅读次数:
231
背景:分析用户在世界杯期间讨论最多的话题。
思路:把用户关于世界杯的帖子拉下来,然后做中文分词+词频统计,最后将统计结果简单做个标签云,效果如下
后续:中文分词是中文信息处理的基础,分词之后,其实还有特别多有趣的文本挖掘工作可以做,也是个知识发现的过程,以后有机会再学习下。...
分类:
其他好文 时间:
2014-07-13 18:53:55
阅读次数:
367