mapreduce实现一个简单的单词计数的功能。一,准备工作:eclipse 安装hadoop 插件:下载相关版本的hadoop-eclipse-plugin-2.2.0.jar到eclipse/plugins下。二,实现:新建mapreduce project map 用于分词,reduce计数。...
分类:
其他好文 时间:
2015-01-05 14:49:19
阅读次数:
220
深入浅出Hadoop Mahout数据挖掘实战(算法分析、项目实战、中文分词技术)适合人群:高级课时数量:17课时用到技术:MapReduce并行分词程序 Mahout涉及项目:Hadoop综合实战-文本挖掘项目 Mahout数据挖掘工具咨询QQ:1840215592课程介绍本课程主要涉及以下内容的...
分类:
其他好文 时间:
2015-01-05 12:52:24
阅读次数:
532
http://blog.csdn.net/marising/article/details/5769653前段时间写了中文分词的一些记录里面提到了CRF的分词方法,近段时间又研究了一下,特把方法写下来,以备忘,另外,李沫南同学优化过CRF++,见:http://www.coreseek.cn/ope...
分类:
其他好文 时间:
2015-01-04 18:51:40
阅读次数:
391
http://biancheng.dnbcw.info/java/341268.htmlCRF简介ConditionalRandomField:条件随机场,一种机器学习技术(模型)CRF由John Lafferty最早用于NLP技术领域,其在NLP技术领域中主要用于文本标注,并有多种应用场景,例如:...
分类:
其他好文 时间:
2015-01-04 18:38:16
阅读次数:
355
http://www.52nlp.cn/%E4%B8%AD%E6%96%87%E5%88%86%E8%AF%8D%E5%85%A5%E9%97%A8%E4%B9%8B%E5%AD%97%E6%A0%87%E6%B3%A8%E6%B3%954上一节主要介绍的是利用最大熵工具包来做字标注中文分词,这一节...
分类:
其他好文 时间:
2015-01-04 18:32:28
阅读次数:
274
http://langiner.blog.51cto.com/1989264/379166原创作品,允许转载,转载时请务必以超链接形式标明文章原始出处、作者信息和本声明。否则将追究法律责任。http://langiner.blog.51cto.com/1989264/379166条件随机场 (CRF...
分类:
其他好文 时间:
2015-01-04 16:43:50
阅读次数:
113
http://blog.csdn.net/heavendai/article/details/70301021.首先来说一下马尔科夫链。一个事件序列发生的概率可以用下面的概率论里面的乘法公式展开P(w1,w2,…wn) = P(w1)P(w2|w1)P(w3| w1 w2)…P(wn|w1 w2…w...
分类:
其他好文 时间:
2015-01-04 16:30:47
阅读次数:
193
今天Mayuyu要介绍一个非常有用的包,叫做mafan。Mafan是一组Python工具集合,用于方便处理中文。可以做繁简检测,繁简转化,检查中文标点,检查是否中英文混合,甚至还提供分词。具体可以参考如下链接
链接:http://www.open-open.com/lib/view/open1418367676855.html
而mafan的源代码在这里:https://...
分类:
编程语言 时间:
2015-01-01 19:48:51
阅读次数:
169
之前都是用计算所的分词工具进行分词,效果不错可是比較麻烦,近期開始用Python的“结巴”模块进行分词,感觉很方便。这里将我写的一些小程序分享给大家,希望对大家有所帮助。以下这个程序是对一个文本文件中的内容进行分词的程序:test.py#!/usr/bin/python#-*- encod...
分类:
编程语言 时间:
2015-01-01 15:56:18
阅读次数:
170
首先,先看下目录结构。
第一步,在eclipse中建立jave项目。需要引入jar包,只有3个,分别是lucene的分词器和核心包,还有高亮显示器。做法是建立一个lib文件夹,将jar包拷过来,然后右击,选择Build
Path(构建路径),Addto Build Path(添加到项目的构建路径)。
然后建立datasource文件...
分类:
Web程序 时间:
2014-12-31 13:06:34
阅读次数:
227