码迷,mamicode.com
首页 >  
搜索关键字:r语言 中文分词 rwordseg    ( 713个结果
关于中文分词
目前全量索引17G,不到1300万document花费大约25分钟的时间(Lucene 4.0),吞吐量远远低于lucene nightly build宣称的170G/h的量。换用StandardAnalyzer,有34%的提高,比较下使用的KAnalyzer,mmseg4j1.9.2-snapshot,standardanalyzer,性能分别在1.7M/s,10M/s,20M/s这样量级。所以...
分类:其他好文   时间:2014-06-22 08:37:18    阅读次数:201
python scikit-learn计算tf-idf词语权重
python的scikit-learn包下有计算tf-idf的api,研究了下做个笔记 1 安装scikit-learn包 sudo pip install scikit-learn 2 中文分词采用的jieba分词,安装jieba分词包 sudo pip install jieba 3  关于jieba分词的使用非常简单,参考这里,关键的语句就是(这里简单试水,不追求效...
分类:编程语言   时间:2014-06-16 14:40:05    阅读次数:437
PHPAnalysis中文分词类实用教程
PHPAnalysis是目前广泛使用的中文分词类,使用反向匹配模式分词,因此兼容编码更广泛,现将其变量与常用函数详解如下:一、比较重要的成员变量$resultType = 1 生成的分词结果数据类型(1 为全部, 2为 词典词汇及单个中日韩简繁字符及英文, 3 为词典词汇及英文) ...
分类:Web程序   时间:2014-06-15 09:39:46    阅读次数:196
网络挖掘技术——text mining
一、中文分词:分词就是利用计算机识别出文本中词汇的过程。 1.典型应用:汉字处理:拼音输入法、手写识别、简繁转换 ;信息检索:Google 、Baidu ;内容分析:机器翻译、广告推荐、内容监控 ;语音处理:语音识别、语音合成 。 2.分词难点:歧义、新词等。 3.分词技术:机械分词(查词典FMM/...
分类:其他好文   时间:2014-06-07 06:04:35    阅读次数:511
Hadoop的改进实验(中文分词词频统计及英文词频统计) 博文目录结构
声明: 1)本文由我bitpeach原创撰写,转载时请注明出处,侵权必究。2)本小实验工作环境为Windows系统下的百度云(联网),和Ubuntu系统的hadoop1-2-1(自己提前配好)。如不清楚配置可看《Hadoop之词频统计小实验初步配置》3)本文由于过长,无法一次性上传。下面是五个部分....
分类:其他好文   时间:2014-06-07 02:55:09    阅读次数:178
Hadoop的改进实验(中文分词词频统计及英文词频统计)(2/4)
声明: 1)本文由我bitpeach原创撰写,转载时请注明出处,侵权必究。2)本小实验工作环境为Windows系统下的百度云(联网),和Ubuntu系统的hadoop1-2-1(自己提前配好)。如不清楚配置可看《Hadoop之词频统计小实验初步配置》3)本文由于过长,无法一次性上传。其相邻相关的博....
分类:其他好文   时间:2014-05-30 13:26:48    阅读次数:538
Hadoop的改进实验(中文分词词频统计及英文词频统计)(3/4)
声明: 1)本文由我bitpeach原创撰写,转载时请注明出处,侵权必究。2)本小实验工作环境为Windows系统下的百度云(联网),和Ubuntu系统的hadoop1-2-1(自己提前配好)。如不清楚配置可看《Hadoop之词频统计小实验初步配置》3)本文由于过长,无法一次性上传。其相邻相关的博....
分类:其他好文   时间:2014-05-30 13:25:19    阅读次数:400
Hadoop的改进实验(中文分词词频统计及英文词频统计)(4/4)
声明: 1)本文由我bitpeach原创撰写,转载时请注明出处,侵权必究。2)本小实验工作环境为Windows系统下的百度云(联网),和Ubuntu系统的hadoop1-2-1(自己提前配好)。如不清楚配置可看《Hadoop之词频统计小实验初步配置》3)本文由于过长,无法一次性上传。其相邻相关的博....
分类:其他好文   时间:2014-05-30 13:12:51    阅读次数:394
Hadoop的改进实验(中文分词词频统计及英文词频统计)(1/4)
声明: 1)本文由我bitpeach原创撰写,转载时请注明出处,侵权必究。2)本小实验工作环境为Windows系统下的百度云(联网),和Ubuntu系统的hadoop1-2-1(自己提前配好)。如不清楚配置可看《Hadoop之词频统计小实验初步配置》3)本文由于过长,无法一次性上传。其相邻相关的博....
分类:其他好文   时间:2014-05-30 12:45:25    阅读次数:563
隐马尔科夫模型
HMM 模型是语音和语言处理中最普遍使用的序列标注模型之一。HMM 模型的建模包 括三个问题:(1)估计观察序列的概率;(2)快速找到最优的状态序列;(3)自动进行 模型的参数估计。本文围绕这三个问题展开,并介绍了在中文分词、词性标注中、拼音 输入法中的使用;同时,对 HMM 模型的一些扩展模型也进...
分类:其他好文   时间:2014-05-30 05:24:57    阅读次数:212
713条   上一页 1 ... 68 69 70 71 72 下一页
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!