码迷,mamicode.com
首页 >  
搜索关键字:分词    ( 2158个结果
TFIDF文档向量化-Mahout_MapReduce
Mahout之SparseVectorsFromSequenceFiles源码分析目标:将一个给定的sequence文件集合转化为SparseVectors1、对文档分词1.1)使用最新的{@link org.apache.lucene.util.Version}创建一个...
分类:其他好文   时间:2014-06-08 21:56:03    阅读次数:501
Python学习手册笔记
之前为了编写一个svm分词的程序而简单学了下Python,觉得Python很好用,想深入并系统学习一下,了解一些机制,因此开始阅读《Python学习手册(第三版)》。如果只是想快速入门,我在这里推荐了几篇文章,有其他语言编程经验的人简单看一看就可以很快地开始编写Python程序了。   黑体表示章节, 下划线表示可以直接在原文对应位置查到的专有技术名词。   原书配套答案请到http:...
分类:编程语言   时间:2014-06-08 09:46:30    阅读次数:351
用python做中文自然语言预处理
这篇博客根据中文自然语言预处理的步骤分成几个板块。以做LDA实验为例,在处理数据之前,会写一个类似于实验报告的东西,用来指导做实验,OK,举例:一,实验数据预处理(python,结巴分词)1.对于爬取的评论做分词和词性标注处理(mac-result.txt)2.对于结果只用公版的停用词表去停用词,不...
分类:编程语言   时间:2014-06-03 06:45:21    阅读次数:385
SimHash算法
首先,SimHash算法主要是用于文本去重的。文本去重的第一步就是判断文本的相似度,如果两个文本的相似度很 高,那么我们可以认为它们是相同的文本。   对于文本相似度的计算,传统的方法是使用向量空间模型,即Vector Space Model,即VSM,VSM计算文本相似度 的方法是这样的:先对文本进行分词,提取出特征词,然后建立文本向量,把相似度的计算转化成某种特征向量距离 的计算,比...
分类:其他好文   时间:2014-06-02 05:02:30    阅读次数:500
【搜索引擎基础知识1】搜索引擎基本架构
(一)搜索引擎的开发一般可分为下面三大部分1、数据採集层:一般使用爬虫获取互联网的数据,重要的开源项目有Heritrxi2、数据分析处理层:将从互联网上获取到的数据进行提取归类、分词、语义分析得出索引得内容,等待用户查询使用,重要的开源项目有Lucene3、视图层:也用户的交互界面,如一个站点的首页...
分类:其他好文   时间:2014-05-31 20:04:37    阅读次数:263
python中判断语句用两个or连接的奇葩
首先来看问题,在做完词性标注后,我要将部分词性的词去掉,如代码中,列表cixing所示:if的判断语句不能只用 k in seg,因为,这种情况不能去除k==seg的情况。所以需要两个判断语句即:if k==seg or k in seg:好的,问题来了,请看测试结果import rea="hen/...
分类:编程语言   时间:2014-05-30 20:02:41    阅读次数:399
Hadoop的改进实验(中文分词词频统计及英文词频统计)(2/4)
声明: 1)本文由我bitpeach原创撰写,转载时请注明出处,侵权必究。2)本小实验工作环境为Windows系统下的百度云(联网),和Ubuntu系统的hadoop1-2-1(自己提前配好)。如不清楚配置可看《Hadoop之词频统计小实验初步配置》3)本文由于过长,无法一次性上传。其相邻相关的博....
分类:其他好文   时间:2014-05-30 13:26:48    阅读次数:538
Hadoop的改进实验(中文分词词频统计及英文词频统计)(4/4)
声明: 1)本文由我bitpeach原创撰写,转载时请注明出处,侵权必究。2)本小实验工作环境为Windows系统下的百度云(联网),和Ubuntu系统的hadoop1-2-1(自己提前配好)。如不清楚配置可看《Hadoop之词频统计小实验初步配置》3)本文由于过长,无法一次性上传。其相邻相关的博....
分类:其他好文   时间:2014-05-30 13:12:51    阅读次数:394
Hadoop的改进实验(中文分词词频统计及英文词频统计)(1/4)
声明: 1)本文由我bitpeach原创撰写,转载时请注明出处,侵权必究。2)本小实验工作环境为Windows系统下的百度云(联网),和Ubuntu系统的hadoop1-2-1(自己提前配好)。如不清楚配置可看《Hadoop之词频统计小实验初步配置》3)本文由于过长,无法一次性上传。其相邻相关的博....
分类:其他好文   时间:2014-05-30 12:45:25    阅读次数:563
隐马尔科夫模型
HMM 模型是语音和语言处理中最普遍使用的序列标注模型之一。HMM 模型的建模包 括三个问题:(1)估计观察序列的概率;(2)快速找到最优的状态序列;(3)自动进行 模型的参数估计。本文围绕这三个问题展开,并介绍了在中文分词、词性标注中、拼音 输入法中的使用;同时,对 HMM 模型的一些扩展模型也进...
分类:其他好文   时间:2014-05-30 05:24:57    阅读次数:212
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!