搜索关键字：分词，搜索到2158个结果！码迷,mamicode.com！

TFIDF文档向量化-Mahout_MapReduce

Mahout之SparseVectorsFromSequenceFiles源码分析目标：将一个给定的sequence文件集合转化为SparseVectors1、对文档分词1.1）使用最新的{@link org.apache.lucene.util.Version}创建一个...

分类：其他好文时间：2014-06-08 21:56:03 阅读次数：501

Python学习手册笔记

之前为了编写一个svm分词的程序而简单学了下Python，觉得Python很好用，想深入并系统学习一下，了解一些机制，因此开始阅读《Python学习手册(第三版)》。如果只是想快速入门，我在这里推荐了几篇文章，有其他语言编程经验的人简单看一看就可以很快地开始编写Python程序了。　　黑体表示章节，下划线表示可以直接在原文对应位置查到的专有技术名词。　　原书配套答案请到http:...

分类：编程语言时间：2014-06-08 09:46:30 阅读次数：351

用python做中文自然语言预处理

这篇博客根据中文自然语言预处理的步骤分成几个板块。以做LDA实验为例，在处理数据之前，会写一个类似于实验报告的东西，用来指导做实验，OK，举例：一，实验数据预处理（python,结巴分词）1.对于爬取的评论做分词和词性标注处理(mac-result.txt)2.对于结果只用公版的停用词表去停用词，不...

分类：编程语言时间：2014-06-03 06:45:21 阅读次数：385

SimHash算法

首先，SimHash算法主要是用于文本去重的。文本去重的第一步就是判断文本的相似度，如果两个文本的相似度很高，那么我们可以认为它们是相同的文本。对于文本相似度的计算，传统的方法是使用向量空间模型，即Vector Space Model，即VSM，VSM计算文本相似度的方法是这样的：先对文本进行分词，提取出特征词，然后建立文本向量，把相似度的计算转化成某种特征向量距离的计算，比...

分类：其他好文时间：2014-06-02 05:02:30 阅读次数：500

【搜索引擎基础知识1】搜索引擎基本架构

（一）搜索引擎的开发一般可分为下面三大部分1、数据採集层：一般使用爬虫获取互联网的数据，重要的开源项目有Heritrxi2、数据分析处理层：将从互联网上获取到的数据进行提取归类、分词、语义分析得出索引得内容，等待用户查询使用，重要的开源项目有Lucene3、视图层：也用户的交互界面，如一个站点的首页...

分类：其他好文时间：2014-05-31 20:04:37 阅读次数：263

python中判断语句用两个or连接的奇葩

首先来看问题，在做完词性标注后，我要将部分词性的词去掉，如代码中，列表cixing所示：if的判断语句不能只用 k in seg,因为，这种情况不能去除k==seg的情况。所以需要两个判断语句即：if k==seg or k in seg:好的，问题来了，请看测试结果import rea="hen/...

分类：编程语言时间：2014-05-30 20:02:41 阅读次数：399

Hadoop的改进实验（中文分词词频统计及英文词频统计）（2/4）

声明： 1）本文由我bitpeach原创撰写，转载时请注明出处，侵权必究。2）本小实验工作环境为Windows系统下的百度云（联网），和Ubuntu系统的hadoop1-2-1（自己提前配好）。如不清楚配置可看《Hadoop之词频统计小实验初步配置》3）本文由于过长，无法一次性上传。其相邻相关的博....

分类：其他好文时间：2014-05-30 13:26:48 阅读次数：538

Hadoop的改进实验（中文分词词频统计及英文词频统计）（4/4）

声明： 1）本文由我bitpeach原创撰写，转载时请注明出处，侵权必究。2）本小实验工作环境为Windows系统下的百度云（联网），和Ubuntu系统的hadoop1-2-1（自己提前配好）。如不清楚配置可看《Hadoop之词频统计小实验初步配置》3）本文由于过长，无法一次性上传。其相邻相关的博....

分类：其他好文时间：2014-05-30 13:12:51 阅读次数：394

Hadoop的改进实验（中文分词词频统计及英文词频统计）（1/4）

声明： 1）本文由我bitpeach原创撰写，转载时请注明出处，侵权必究。2）本小实验工作环境为Windows系统下的百度云（联网），和Ubuntu系统的hadoop1-2-1（自己提前配好）。如不清楚配置可看《Hadoop之词频统计小实验初步配置》3）本文由于过长，无法一次性上传。其相邻相关的博....

分类：其他好文时间：2014-05-30 12:45:25 阅读次数：563

隐马尔科夫模型

HMM 模型是语音和语言处理中最普遍使用的序列标注模型之一。HMM 模型的建模包括三个问题:(1)估计观察序列的概率;(2)快速找到最优的状态序列;(3)自动进行模型的参数估计。本文围绕这三个问题展开,并介绍了在中文分词、词性标注中、拼音输入法中的使用;同时,对 HMM 模型的一些扩展模型也进...

分类：其他好文时间：2014-05-30 05:24:57 阅读次数：212