酒店评论情感分析系统——用ictclas4j进行中文分词,并去除停用词 ictclas4j是中科院计算所开发的中文分词工具ICTCLAS的Java版本,因其分词准确率较高,而备受青睐。1. 下载ictclas4j 后面的附件中,我有放上ictclas4j的源码包ictclas4j.zip2. ...
分类:
其他好文 时间:
2014-10-03 22:56:25
阅读次数:
532
在使用paoding分词的时候,出现了错误,please set a system env PAODING_DIC_HOME or Config paoding.dic.home in paoding-dic-home.properties point to the
dictionaries!
这是因为在老版本的PaodingMaker.getFile()方法中采用的是老版本的jav...
分类:
其他好文 时间:
2014-10-03 13:31:34
阅读次数:
175
在使用lucent检索文档时,必须先为各文档创建索引。索引的创建即读出文档信息(如文档名称、上传时间、文档内容等),然后再经过分词建索引写入到索引文件里。这里主要是总结下读取各类文档内容这一步。一、之前做过一个小工具也涉及到读取word和excel内容,采用的是com组件的方式来读取。即导入COM库...
分类:
其他好文 时间:
2014-09-30 18:32:40
阅读次数:
229
====================问题描述==================== 最近的安卓开发中需要用到中文分词,就用了中科院的这个分词系统,但是按java应用程序方法引入API中的文件(DATA,ICTCLAS,Configure)等程序总会报错,请问有人在安卓平台上用过吗?麻烦告诉我该...
分类:
移动开发 时间:
2014-09-30 16:38:09
阅读次数:
156
进行命令处理的典型程序框架
今天翻看APUE中非局部goto的时候,看到了这个处理命令行的代码框架,所以就想简单的实现一个功能进行调试,花了大概2个小时,才完全看的过去,记录下,虽然看起来还是不够层次清晰。里面牵扯到的知识点注意有:业务要学会分层;枚举值和对应字符串的转换;字符串的解析(分词)。
#include "util.h"
void do_line(ch...
分类:
其他好文 时间:
2014-09-26 20:35:48
阅读次数:
191
本文记录了一些朋友提供的面试经历,真实数据,仅供广州求职的朋友参考。为行文方便,一律用主语”我“进行。部分词语可能造成读者不良反应,敬请留意。1 广州沣首信息科技有限公司公司所在区域相对较偏,勤天厦大对面区域,一直往里走,有快走到底的感觉。到公司后已有人在面,我被引到休息区等候,招待者倒杯水后就离开...
分类:
编程语言 时间:
2014-09-26 19:38:08
阅读次数:
237
(一) 国家语委1国家语委现代汉语语料库http://www.cncorpus.org/现代汉语通用平衡语料库现在重新开放网络查询了。重开后的在线检索速度更快,功能更强,同时提供检索结果下载。现代汉语语料库在线提供免费检索的语料约2000万字,为分词和词性标注语料。2古代汉语语料库http://ww...
分类:
其他好文 时间:
2014-09-25 18:42:17
阅读次数:
279
电商系统的分词,不同于百度这种通用搜索引擎,它有自己一套独立的词典和业务逻辑,它所处理的语料以及分词算法都是需要定制的。 ? ? 首先,是语料来源的不同,我们以京东商城为例,商品详情页截图如下最...
分类:
其他好文 时间:
2014-09-25 13:27:09
阅读次数:
229
1.背景 最近参加了一个评测,是关于新闻个性化推荐。说白了就是给你一个人的浏览记录,预测他下一次的浏览记录。花了一周时间写了一个集成系统,可以一键推荐新闻,但是准确率比较不理想,所以发到这里希望大家给与一些建议。用到的分词部分的代码借用的jieba分词。数据集和代码在下面会给出。2.数据集一共五个字段,以tab隔开。分别是user编号,news编号,时间编号,新闻标题,对应当前月份的日...
分类:
编程语言 时间:
2014-09-25 10:43:58
阅读次数:
947
对于SEO人员来说,自己工作的主要目标就是搜索引擎,所以深刻理解搜索引擎运行机制有助于我们针对搜索引擎进行优化,这就相当于两国交兵,必须要知道对方的虚实,再分析自己的优势,然后才能够一举进兵消灭对方,如果你还不知道对方的虚实,别人以逸待劳,那你失败是肯定的了!而在分析搜索引擎方面,知道其运行机制和....
分类:
Web程序 时间:
2014-09-24 17:46:27
阅读次数:
188