[摘要]关键词提取是中文信息处理技术的热点和难点,基于统计信息的方法是其中一个重要分支。本文针对基于统计信息关键词提取方法准确率低的问题,提出基于高维聚类技术的中文关键词提取算法。算法通过依据小词典的快速分词、二次分词、高维聚类及关键词甄选四个步骤实现关键词的提取。理论分析和实验显示,基于高维聚类技...
分类:
其他好文 时间:
2014-09-24 18:00:37
阅读次数:
141
近日需要对大众点评网60万+的景点评论进行语义分析,所以必须使用分词工具,刚刚开始时我是选择使用NLPIR汉语分词系统(又名ICTCLAS2014),NLPIR的教程在[分词]NLPIR/ICTCLAS2014分词系统的C++ API 在Windows下初次使用,但是直观上感觉分词效果不怎么理想.....
分类:
编程语言 时间:
2014-09-20 09:57:17
阅读次数:
342
Elasticsearch安装中文分词插件ik...
分类:
其他好文 时间:
2014-09-19 23:56:56
阅读次数:
490
字典分词 代码(C)本文地址: http://blog.csdn.net/caroline_wendy给定字典, 给定一句话, 进行分词. 使用深度遍历(DFS)的方法.使用一个参数string, 保存当前分支的分词后的句子; 使用一个参数vector, 保存所有可能的组合.使用一个验证函数, 判断句子是否可以分词.代码:/*
* main.cpp
*
* Created on: 2014...
分类:
其他好文 时间:
2014-09-19 10:13:35
阅读次数:
288
最近花了点时间学习nlp--实际只是学习使用nltk和伴随它出现的gensim。 ????也许nlp在国内普及的时间还不是很长,绝大多数资料都来自nltk和gensim的官网,国内最多的例子止于演示一下nltk分词/划分词性...
分类:
其他好文 时间:
2014-09-17 20:34:03
阅读次数:
185
nltk同时也能处理中文的场景,只要做如下改动: 使用中文分词器(如我选用了结巴分词) 对中文字符做编码处理,使用unicode编码方式 python的源码编码统一声明为 gbk 使用支持中文的语料库 to be continue......
分类:
其他好文 时间:
2014-09-17 10:30:22
阅读次数:
275
多核心的概念
多核心说白了就是多索引库。也可以理解为多个"数据库表"
说一下使用multicore的真实场景,比若说,产品搜索和会员信息搜索,不使用多核也没问题,这样带来的问题是 indexs文件很多,而且产品的索引文件和会员信息的索引文件混在一起,备份也是个问题。 如果使用了多核,那就很轻松了,产...
分类:
其他好文 时间:
2014-09-16 10:24:30
阅读次数:
264
题目: 给定字符串,以及一个字典,判断字符串是否能够拆分为 字典中的单词。例如:字典为{Hello,World},给定字符串为HelloHelloWorld,则可以拆分为Hello,Hello,World,都是字典中的单词。 分析: 这样的题目叫做“分词问题”,有点勉强。只是这是自然语言处理,搜索引...
分类:
其他好文 时间:
2014-09-14 15:20:27
阅读次数:
202
全文索引服务solr搭建。公司最近要用到。我又是个java小白。做环境的什么的不再行。就此几下操作。
大部分是看官方提供的reference.pdf来做的,也google了不少。公司还有个大哥指点。。。。笨的可以。
环境如下
OS: centos6.5
java环境: jdk1.7.0_51
tomcat版本: apache-tomcat-7.0.55
solr版本: solr...
分类:
其他好文 时间:
2014-09-13 22:49:56
阅读次数:
430
在使用solr4.9的过程中,使用了IKAnalyzer分词器,其中遇到了不少问题,现在做个记录,以备后续只用。 ? ? ?首先使用IKAnalyzer是看到群里有人介绍,但是貌似现在IKAnalyzer已经没人更新了。。。不知道...
分类:
其他好文 时间:
2014-09-11 09:45:52
阅读次数:
234