NLP, NER, POS, CHUNK, 分词, tool,...
分类:
编程语言 时间:
2015-04-23 13:29:58
阅读次数:
251
第 0006 题:你有一个目录,放了你一个月的日记,都是 txt,为了避免分词的问题,假设内容都是英文,请统计出你认为每篇日记最重要的词。
思路:切换到目标目录,然后遍历该目录下的txt文件,用正则表达式匹配响应的单词和数字,然后让Counter计算单词的词频,并认为排除掉stop word后出现最多的词是最重要的词。
注:stopword就是类似 a/an/and/are/then 的这...
分类:
编程语言 时间:
2015-04-21 18:07:15
阅读次数:
149
(一)国家语委1国家语委现代汉语语料库http://www.cncorpus.org/现代汉语通用平衡语料库现在重新开放网络查询了。重开后的在线检索速度更快,功能更强,同时提供检索结果下载。现代汉语语料库在线提供免费检索的语料约2000万字,为分词和词性标注语料。2古代汉语语料库http://www...
分类:
其他好文 时间:
2015-04-21 17:48:54
阅读次数:
128
1、从官网上下载三个包:http://taku910.github.io/mecab/mecab-0.996 mecab-0.996.tar.gz mecab-ipadic-2.7.0-20070801 mecab-ipadic-2.7.0-20070801.tar.gz mecab-python-...
分类:
编程语言 时间:
2015-04-20 00:09:26
阅读次数:
496
昨天我们开始设计了一门新语言,制定了基本的开发架构,今天我们就先来了解一下,两个非常好用的工具,编译器前端构建的神器——Lex&Yacc,这两个工具在linux下叫做flex和bison。Lex是词法分析器构建工具,我们安装对应的词法规则书写,那么就能够为我们生成对应的词法分析器,自动帮我们分好token,而分词工作,一直是编译系统的基础任务。我们今天,先来尝试编写一个BNF语法的解析器。...
分类:
编程语言 时间:
2015-04-14 19:45:31
阅读次数:
313
N-gram:
P(w1w2w3...wn)=P(w1)P(w2|w1)P(w3|w2,w1)...P(wn|wn-1,wn-2,...,w1)...
分类:
其他好文 时间:
2015-04-14 12:57:19
阅读次数:
175
elasticsearch中的mapping映射配置示例比如要搭建个中文新闻信息的搜索引擎,新闻有"标题"、"内容"、"作者"、"类型"、"发布时间"这五个字段;我们要提供"标题和内容的检索"、"排序"、"高亮"、"统计"、"过滤"等一些基本功能。ES提供了smartcn的中文分词插件,测试的话建议...
分类:
移动开发 时间:
2015-04-14 09:52:46
阅读次数:
135
结巴分词标注兼容_ICTCLAS2008汉语词性标注集2014-01-20 | ouyang78... download计算所汉语词性标记集Version 3.0制订人:刘群 张华平 张浩计算所汉语词性标记集... 10. 说明... 11. 名词 (1个一类,7个二类,5个三类...
分类:
其他好文 时间:
2015-04-11 08:51:57
阅读次数:
17203
安装环境的准备:
(这里直接给相关软件的版本号了)
centos 6.4
apache-tomcat-7.0.57
solr-4.10.4
jdk1.7.0_75
jdk和tomcat这里就不给安装方式了,要是不会直接百度各种有。
具体步骤:
1.下载solr-4.10.4,然后解压开我这里解压到 /usr/local/zi...
分类:
其他好文 时间:
2015-04-09 19:55:04
阅读次数:
221
下面给大家介绍一下如何打造自己的coreseek分词词库。 coreseek自身带的词库不是很大,直接使用它分词可能会返回大量没用结果。要想搜索结果准确打造一个专门的分词 词库必不可少。 i. 首先到搜狗http://piny...
分类:
其他好文 时间:
2015-04-09 12:19:20
阅读次数:
158