搜索关键字：分词，搜索到2158个结果！码迷,mamicode.com！

solrcloud和zookeeper的搭建、使用、心得、教训

公司的solr线上服务器，分成差不多是个core给不同的部门不同的业务需求来使用。我接手以来，问题多多，烦扰多多。有不少问题亟待解决，首当其冲的是搜索准确度、数据同步。搜索准确度已经通过改用ansj分词器和不断优化的个人词库和停用词库来解决，这是个不断优化的过程，需要长时间的跟进才有明显效果。第二个...

分类：其他好文时间：2014-07-19 15:19:33 阅读次数：846

java读取中文分词工具(2)

/* * 文件格式：已分词的中文文本，每个词语空格分割，每行一个段落。 * 这个类适合读取每行数量较少的文本，比如分好段落的文本，一个段落一行存储。 * 读取一行，步长为1，返回词组。不会跨段落生成词组。 * 两种模式： * 1 读到文件末尾，结束 * 2 读到文件末尾，从头再来 */...

分类：编程语言时间：2014-07-19 08:07:56 阅读次数：324

最大概率法分词中词频惩罚因子的作用探究

在最大概率法分词的程序中，由于每个词出现的次数分布非常不均匀，而且我们要计算每个词出现的概率，对于出现次数比较少的词概率就很小，求句子中词的概率之积的时候，需要将好多非常小的数作乘法，可能会将超出计算机所能表示的数的最小范围。为了便于计算，常常要将每个词的概率求对数后在进行计算，但是由于对概率求对数后变为负值，因此要求对应的相反数。所以一个词出现的次数越多，最后求得对应的值越小，我们将这个值称为这...

分类：其他好文时间：2014-07-19 02:46:06 阅读次数：236

Python TF-IDF计算100份文档关键词权重

上一篇博文中，我们使用结巴分词对文档进行分词处理，但分词所得结果并不是每个词语都是有意义的（即该词对文档的内容贡献少），那么如何来判断词语对文档的重要度呢，这里介绍一种方法：TF-IDF。一，TF-IDF介绍 TF-IDF（Term Frequency–Inverse Document F...

分类：编程语言时间：2014-07-18 08:30:03 阅读次数：620

python运维开发笔记4

1.函数如何被调用，通过return返回值来调用2.生成器和return区别yield生成器返回对象，可以迭代可以执行glob模块类似shell中的正则匹配shlex模块Popen将命令参数直接分词cmd="psax-opid,ppid,cmd"shlex.split(cmd)[‘ps‘,‘ax‘,‘-o‘,‘pid,ppid,cmd‘][‘mysql‘,‘-u‘,‘root‘,‘-p123‘..

分类：编程语言时间：2014-07-17 08:00:41 阅读次数：366

python抓取伯乐在线的所有文章，对标题分词后存入mongodb中

python抓取伯乐在线的所有文章，对标题分词后存入mongodb中...

分类：数据库时间：2014-07-16 17:09:20 阅读次数：289

IKAnalyzer 分词

IK Analyzer 3.0特性采用了特有的"正向迭代最细粒度切分算法"，具有80万字/秒的高速处理能力采用了多子处理器分析模式，支持：英文字母（IP地址、Email、URL）、数字（日期，常用中文数量词，罗马数字，科学计数法），中文词汇（姓名、地名处理）等分词处理。优化的词典存储，更小的内存占用...

分类：其他好文时间：2014-07-16 00:54:37 阅读次数：800

Python 结巴分词

今天的任务是对txt文本进行分词，有幸了解到"结巴"中文分词，其愿景是做最好的Python中文分词组件。有兴趣的朋友请点这里。jieba支持三种分词模式：＊精确模式，试图将句子最精确地切开，适合文本分析；＊全模式，把句子中所有的可以成词的词语都扫描出来, 速度非常快，但是不能解决歧义；＊...

分类：编程语言时间：2014-07-15 23:14:45 阅读次数：679

solr中文分词

IK是solr常用的中文分词，其配置比较难搞，试了好多次才搞定：将jar放入tomcat下WEB-INF/libconfig.xml,ext.dic,stopword.dic放入WEB-INF/classes下另外，solr4+需要使用IK_2012_ff，不要使用IK_2012_u6IK实际的效果...

分类：其他好文时间：2014-07-15 09:52:49 阅读次数：231

中文分词实践（基于R语言）

背景：分析用户在世界杯期间讨论最多的话题。思路：把用户关于世界杯的帖子拉下来，然后做中文分词+词频统计，最后将统计结果简单做个标签云，效果如下后续：中文分词是中文信息处理的基础，分词之后，其实还有特别多有趣的文本挖掘工作可以做，也是个知识发现的过程，以后有机会再学习下。...

分类：其他好文时间：2014-07-13 18:53:55 阅读次数：367

共2158条上一页 1 ... 206 207 208 209 210 ... 216 下一页

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)