python用来批量处理一些数据的第一步吧。 对于我这样的的萌新。这是第一步。 在控制台输出txt文档的内容,注意中文会在这里乱码。因为和脚本文件放在同一个地方,我就没写路径了。 还有一些别的操作。 这是文件open()函数的打开mode,在第二个参数中设置。特别需要注意一下。具体还有一些别的细节操 ...
分类:
编程语言 时间:
2017-05-14 23:37:38
阅读次数:
498
当时打酱油做的大创,除了看源代码之外,什么数学原理,始终没有动手实践过,站在巨人的肩上,就这么完成了大创。。 想不到时隔两年还要被迫回来学习,所以呀 出来混 还是要脚踏实地 亲力亲为 当时偷的懒 早晚都还要还回来的。 说到分词: 一:ICTCLAS 研制出了汉语词法分析系统ICTCLAS(Insti ...
分类:
其他好文 时间:
2017-05-13 14:52:55
阅读次数:
153
前段时间用这个分词用的好好的,突然间就总是初始化失败了; 网上搜了很多,但是不是我想要的答案,最终去了官网看了下;官网链接 发现哇,版本更新了啊,下载页面链接 麻利的下载好了最新的文档,一看压缩包名字:20161115173728_ICTCLAS2016分词系统下载包 现在是2016-11-17 1 ...
分类:
其他好文 时间:
2016-11-17 12:52:15
阅读次数:
324
前段时间使用了HanLP一个纯JAVA分词工具包,后来老大说分词效果不是很好,需要换一个分词工具。于是推荐了一个分词工具——NLPIR,它是中科院XXX研发的一个分词工具。这个分词工具只用C/C++写的,但是它提供了JAVA,C#等调用接口。于是我希望是的通过java来调用。使用java调用C/C+ ...
分类:
其他好文 时间:
2016-09-30 01:06:10
阅读次数:
294
之前零零散散用过几次,配置好了就没管过。后来再用的时候就忘了怎么配置,又找了很多资料(太麻烦了)。现总结一下当作笔记: 首先,下载中科院分词项目。 github网址:https://github.com/NLPIR-team/NLPIR/tree/master/NLPIR%20SDK/NLPIR-I ...
分类:
编程语言 时间:
2016-07-13 15:39:32
阅读次数:
262
最近刚好在学习搜索引擎分词,有了解一些分词插件,在这里给各位猿友分享一下。本文主要介绍四个分词插件(ICTCLAS、IKAnalyzer、Ansj、Jcseg)和一种自己写算法实现的方式,以及一些词库的推荐。一、ICTCLAS1.1、介绍中文词法分析是中文信息处理的基础与关键。中国科学院计算技术研究所在多年研究工作积累的基础上,研制出了汉语词法分析系统ICTCLAS(Institute of Com...
分类:
其他好文 时间:
2016-04-19 06:32:52
阅读次数:
496
1.简介 中国科学院计算技术研究所在多年研究基础上,耗时一年研制出了基于多层隐码模型的汉语词法分析系统 ICTCLAS(Institute of Computing Technology, Chinese Lexical Analysis System),该系统的功能有:中文分词;词性标注;未登录词 ...
分类:
其他好文 时间:
2016-04-18 20:50:03
阅读次数:
241
用户词典如下:舟曲县城@@ZQXC连夜@@LY中国科学院@@v工作@@t研究@@nb国科@t万科@y结果如下:Initial success!中国科学院计算技术研究所在多年研究工作积累的基础上,研制出了汉语词法分析系统ICTCLAS。千万科学家未导入用户词典的分词结果是: 中国科学院/n 计算技术/ ...
分类:
其他好文 时间:
2016-04-18 20:43:54
阅读次数:
298
备注:win7 64位系统,netbeans编程 NLPIR分词系统,前身是2000年发布的ICTCLAS,2009年更为现名。张华平博士打造。 实现步骤: 1、在Netbeans中,文件→新建项目→java→java应用程序;项目名称:CWordSeg; 2、将NLPIR文件下…\sample\J ...
分类:
编程语言 时间:
2016-04-18 20:30:53
阅读次数:
644
ICTCLAS计算所中文分词(当前最好的汉语词法分析器)系统特点:准确度高(98.5%),性能优越(500KB/s分词速度),词性标注(POS tagging)且支持多种标注集,支持用户自定义词典,支持用户自定义词性标注,支持多平台,支持模块组合关闭(在Configure.xml中设置),支持多编码 ...
分类:
其他好文 时间:
2016-04-18 19:00:04
阅读次数:
309