码迷,mamicode.com
首页 >  
搜索关键字:分词    ( 2158个结果
自然语言处理的一些工具文档介绍
NLP, NER, POS, CHUNK, 分词, tool,...
分类:编程语言   时间:2015-04-23 13:29:58    阅读次数:251
Python Show-Me-the-Code 第 0006 题 最重要的词
第 0006 题:你有一个目录,放了你一个月的日记,都是 txt,为了避免分词的问题,假设内容都是英文,请统计出你认为每篇日记最重要的词。 思路:切换到目标目录,然后遍历该目录下的txt文件,用正则表达式匹配响应的单词和数字,然后让Counter计算单词的词频,并认为排除掉stop word后出现最多的词是最重要的词。 注:stopword就是类似 a/an/and/are/then 的这...
分类:编程语言   时间:2015-04-21 18:07:15    阅读次数:149
【转】国内可用免费语料库
(一)国家语委1国家语委现代汉语语料库http://www.cncorpus.org/现代汉语通用平衡语料库现在重新开放网络查询了。重开后的在线检索速度更快,功能更强,同时提供检索结果下载。现代汉语语料库在线提供免费检索的语料约2000万字,为分词和词性标注语料。2古代汉语语料库http://www...
分类:其他好文   时间:2015-04-21 17:48:54    阅读次数:128
ubuntu安装日文分词软件MeCab及其Python插件
1、从官网上下载三个包:http://taku910.github.io/mecab/mecab-0.996 mecab-0.996.tar.gz mecab-ipadic-2.7.0-20070801 mecab-ipadic-2.7.0-20070801.tar.gz mecab-python-...
分类:编程语言   时间:2015-04-20 00:09:26    阅读次数:496
创造新语言(2)——用Lex&Yacc构建简单的分析程序
昨天我们开始设计了一门新语言,制定了基本的开发架构,今天我们就先来了解一下,两个非常好用的工具,编译器前端构建的神器——Lex&Yacc,这两个工具在linux下叫做flex和bison。Lex是词法分析器构建工具,我们安装对应的词法规则书写,那么就能够为我们生成对应的词法分析器,自动帮我们分好token,而分词工作,一直是编译系统的基础任务。我们今天,先来尝试编写一个BNF语法的解析器。...
分类:编程语言   时间:2015-04-14 19:45:31    阅读次数:313
bigram分词
N-gram: P(w1w2w3...wn)=P(w1)P(w2|w1)P(w3|w2,w1)...P(wn|wn-1,wn-2,...,w1)...
分类:其他好文   时间:2015-04-14 12:57:19    阅读次数:175
elasticsearch中的mapping映射配置与查询典型案例
elasticsearch中的mapping映射配置示例比如要搭建个中文新闻信息的搜索引擎,新闻有"标题"、"内容"、"作者"、"类型"、"发布时间"这五个字段;我们要提供"标题和内容的检索"、"排序"、"高亮"、"统计"、"过滤"等一些基本功能。ES提供了smartcn的中文分词插件,测试的话建议...
分类:移动开发   时间:2015-04-14 09:52:46    阅读次数:135
结巴分词中的词性对照
结巴分词标注兼容_ICTCLAS2008汉语词性标注集2014-01-20 | ouyang78... download计算所汉语词性标记集Version 3.0制订人:刘群 张华平 张浩计算所汉语词性标记集... 10. 说明... 11. 名词 (1个一类,7个二类,5个三类...
分类:其他好文   时间:2015-04-11 08:51:57    阅读次数:17203
solr4.10.4 单机安装(并添加dataimport和中文分词器)
安装环境的准备: (这里直接给相关软件的版本号了)   centos 6.4 apache-tomcat-7.0.57 solr-4.10.4 jdk1.7.0_75 jdk和tomcat这里就不给安装方式了,要是不会直接百度各种有。 具体步骤: 1.下载solr-4.10.4,然后解压开我这里解压到  /usr/local/zi...
分类:其他好文   时间:2015-04-09 19:55:04    阅读次数:221
打造自己的coreseek分词词库
下面给大家介绍一下如何打造自己的coreseek分词词库。 coreseek自身带的词库不是很大,直接使用它分词可能会返回大量没用结果。要想搜索结果准确打造一个专门的分词 词库必不可少。   i. 首先到搜狗http://piny...
分类:其他好文   时间:2015-04-09 12:19:20    阅读次数:158
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!