Mahout之SparseVectorsFromSequenceFiles源码分析目标:将一个给定的sequence文件集合转化为SparseVectors1、对文档分词1.1)使用最新的{@link
org.apache.lucene.util.Version}创建一个...
分类:
其他好文 时间:
2014-06-08 21:56:03
阅读次数:
501
之前为了编写一个svm分词的程序而简单学了下Python,觉得Python很好用,想深入并系统学习一下,了解一些机制,因此开始阅读《Python学习手册(第三版)》。如果只是想快速入门,我在这里推荐了几篇文章,有其他语言编程经验的人简单看一看就可以很快地开始编写Python程序了。
黑体表示章节, 下划线表示可以直接在原文对应位置查到的专有技术名词。
原书配套答案请到http:...
分类:
编程语言 时间:
2014-06-08 09:46:30
阅读次数:
351
这篇博客根据中文自然语言预处理的步骤分成几个板块。以做LDA实验为例,在处理数据之前,会写一个类似于实验报告的东西,用来指导做实验,OK,举例:一,实验数据预处理(python,结巴分词)1.对于爬取的评论做分词和词性标注处理(mac-result.txt)2.对于结果只用公版的停用词表去停用词,不...
分类:
编程语言 时间:
2014-06-03 06:45:21
阅读次数:
385
首先,SimHash算法主要是用于文本去重的。文本去重的第一步就是判断文本的相似度,如果两个文本的相似度很
高,那么我们可以认为它们是相同的文本。
对于文本相似度的计算,传统的方法是使用向量空间模型,即Vector Space Model,即VSM,VSM计算文本相似度
的方法是这样的:先对文本进行分词,提取出特征词,然后建立文本向量,把相似度的计算转化成某种特征向量距离
的计算,比...
分类:
其他好文 时间:
2014-06-02 05:02:30
阅读次数:
500
(一)搜索引擎的开发一般可分为下面三大部分1、数据採集层:一般使用爬虫获取互联网的数据,重要的开源项目有Heritrxi2、数据分析处理层:将从互联网上获取到的数据进行提取归类、分词、语义分析得出索引得内容,等待用户查询使用,重要的开源项目有Lucene3、视图层:也用户的交互界面,如一个站点的首页...
分类:
其他好文 时间:
2014-05-31 20:04:37
阅读次数:
263
首先来看问题,在做完词性标注后,我要将部分词性的词去掉,如代码中,列表cixing所示:if的判断语句不能只用 k in
seg,因为,这种情况不能去除k==seg的情况。所以需要两个判断语句即:if k==seg or k in seg:好的,问题来了,请看测试结果import
rea="hen/...
分类:
编程语言 时间:
2014-05-30 20:02:41
阅读次数:
399
声明:
1)本文由我bitpeach原创撰写,转载时请注明出处,侵权必究。2)本小实验工作环境为Windows系统下的百度云(联网),和Ubuntu系统的hadoop1-2-1(自己提前配好)。如不清楚配置可看《Hadoop之词频统计小实验初步配置》3)本文由于过长,无法一次性上传。其相邻相关的博....
分类:
其他好文 时间:
2014-05-30 13:26:48
阅读次数:
538
声明:
1)本文由我bitpeach原创撰写,转载时请注明出处,侵权必究。2)本小实验工作环境为Windows系统下的百度云(联网),和Ubuntu系统的hadoop1-2-1(自己提前配好)。如不清楚配置可看《Hadoop之词频统计小实验初步配置》3)本文由于过长,无法一次性上传。其相邻相关的博....
分类:
其他好文 时间:
2014-05-30 13:12:51
阅读次数:
394
声明:
1)本文由我bitpeach原创撰写,转载时请注明出处,侵权必究。2)本小实验工作环境为Windows系统下的百度云(联网),和Ubuntu系统的hadoop1-2-1(自己提前配好)。如不清楚配置可看《Hadoop之词频统计小实验初步配置》3)本文由于过长,无法一次性上传。其相邻相关的博....
分类:
其他好文 时间:
2014-05-30 12:45:25
阅读次数:
563
HMM 模型是语音和语言处理中最普遍使用的序列标注模型之一。HMM 模型的建模包
括三个问题:(1)估计观察序列的概率;(2)快速找到最优的状态序列;(3)自动进行 模型的参数估计。本文围绕这三个问题展开,并介绍了在中文分词、词性标注中、拼音
输入法中的使用;同时,对 HMM 模型的一些扩展模型也进...
分类:
其他好文 时间:
2014-05-30 05:24:57
阅读次数:
212