码迷,mamicode.com
首页 >  
搜索关键字:分词    ( 2158个结果
(3.1)用ictclas4j进行中文分词,并去除停用词
酒店评论情感分析系统——用ictclas4j进行中文分词,并去除停用词 ictclas4j是中科院计算所开发的中文分词工具ICTCLAS的Java版本,因其分词准确率较高,而备受青睐。1. 下载ictclas4j 后面的附件中,我有放上ictclas4j的源码包ictclas4j.zip2. ...
分类:其他好文   时间:2014-10-03 22:56:25    阅读次数:532
please set a system env PAODING_DIC_HOME or Config paoding.dic.home in paoding-dic-home.properties p
在使用paoding分词的时候,出现了错误,please set a system env PAODING_DIC_HOME or Config paoding.dic.home in paoding-dic-home.properties point to the dictionaries! 这是因为在老版本的PaodingMaker.getFile()方法中采用的是老版本的jav...
分类:其他好文   时间:2014-10-03 13:31:34    阅读次数:175
lucent检索技术之创建索引:使用POI读取txt/word/excel/ppt/pdf内容
在使用lucent检索文档时,必须先为各文档创建索引。索引的创建即读出文档信息(如文档名称、上传时间、文档内容等),然后再经过分词建索引写入到索引文件里。这里主要是总结下读取各类文档内容这一步。一、之前做过一个小工具也涉及到读取word和excel内容,采用的是com组件的方式来读取。即导入COM库...
分类:其他好文   时间:2014-09-30 18:32:40    阅读次数:229
中科院中文分词系统ICTCLAS如何在安卓平台上使用
====================问题描述==================== 最近的安卓开发中需要用到中文分词,就用了中科院的这个分词系统,但是按java应用程序方法引入API中的文件(DATA,ICTCLAS,Configure)等程序总会报错,请问有人在安卓平台上用过吗?麻烦告诉我该...
分类:移动开发   时间:2014-09-30 16:38:09    阅读次数:156
进行命令处理的典型程序框架
进行命令处理的典型程序框架      今天翻看APUE中非局部goto的时候,看到了这个处理命令行的代码框架,所以就想简单的实现一个功能进行调试,花了大概2个小时,才完全看的过去,记录下,虽然看起来还是不够层次清晰。里面牵扯到的知识点注意有:业务要学会分层;枚举值和对应字符串的转换;字符串的解析(分词)。 #include "util.h" void do_line(ch...
分类:其他好文   时间:2014-09-26 20:35:48    阅读次数:191
2014广州Java岗位面试汇总
本文记录了一些朋友提供的面试经历,真实数据,仅供广州求职的朋友参考。为行文方便,一律用主语”我“进行。部分词语可能造成读者不良反应,敬请留意。1 广州沣首信息科技有限公司公司所在区域相对较偏,勤天厦大对面区域,一直往里走,有快走到底的感觉。到公司后已有人在面,我被引到休息区等候,招待者倒杯水后就离开...
分类:编程语言   时间:2014-09-26 19:38:08    阅读次数:237
国内可用免费语料库(已经整理过,凡没有标注不可用的链接均可用)
(一) 国家语委1国家语委现代汉语语料库http://www.cncorpus.org/现代汉语通用平衡语料库现在重新开放网络查询了。重开后的在线检索速度更快,功能更强,同时提供检索结果下载。现代汉语语料库在线提供免费检索的语料约2000万字,为分词和词性标注语料。2古代汉语语料库http://ww...
分类:其他好文   时间:2014-09-25 18:42:17    阅读次数:279
电商分词浅谈一
电商系统的分词,不同于百度这种通用搜索引擎,它有自己一套独立的词典和业务逻辑,它所处理的语料以及分词算法都是需要定制的。 ? ? 首先,是语料来源的不同,我们以京东商城为例,商品详情页截图如下最...
分类:其他好文   时间:2014-09-25 13:27:09    阅读次数:229
新闻个性化推荐系统(python)-(附源码 数据集)
1.背景       最近参加了一个评测,是关于新闻个性化推荐。说白了就是给你一个人的浏览记录,预测他下一次的浏览记录。花了一周时间写了一个集成系统,可以一键推荐新闻,但是准确率比较不理想,所以发到这里希望大家给与一些建议。用到的分词部分的代码借用的jieba分词。数据集和代码在下面会给出。2.数据集一共五个字段,以tab隔开。分别是user编号,news编号,时间编号,新闻标题,对应当前月份的日...
分类:编程语言   时间:2014-09-25 10:43:58    阅读次数:947
搜索引擎与网页文本分词的原理
对于SEO人员来说,自己工作的主要目标就是搜索引擎,所以深刻理解搜索引擎运行机制有助于我们针对搜索引擎进行优化,这就相当于两国交兵,必须要知道对方的虚实,再分析自己的优势,然后才能够一举进兵消灭对方,如果你还不知道对方的虚实,别人以逸待劳,那你失败是肯定的了!而在分析搜索引擎方面,知道其运行机制和....
分类:Web程序   时间:2014-09-24 17:46:27    阅读次数:188
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!