目前我常常使用的分词有结巴分词、NLPIR分词等等最近是在使用结巴分词,稍微做一下推荐,还是蛮好用的。一、结巴分词简介利用结巴分词进行中文分词,基本实现原理有三:基于Trie树结构实现高效的词图扫描,生成句子中汉字所有可能成词情况所构成的有向无环图(DAG)采用了动态规划查找最大概率路径, 找出基于...
分类:
编程语言 时间:
2014-10-17 23:14:23
阅读次数:
319
lucene.net 3.0.3、结合盘古分词进行搜索的小例子(分页功能)添加:2013-12-25更新:2013-12-26 新增分页功能。更新:2013-12-27 新增按分类查询功能,调整索引行新增记录的图片字段。//封装类[csharp] view plaincopyprint?usingS...
分类:
Web程序 时间:
2014-10-17 02:44:13
阅读次数:
402
mountains n. 山bullying v.恐吓,威逼( bully的现在分词 );豪;跋扈bullied adj.被欺负了 v.恐吓,威逼( bully的过去式和过去分词 )healthier adj. 健康的
分类:
其他好文 时间:
2014-10-16 00:42:41
阅读次数:
136
搜索引擎Solr4.10.1笔记(二)——IK Analyzer中文分词
废话不多说,我电脑配置 i7四核cpu 8G内存
插入数据文档中有5个字段,其中有两个分词,一个int,一个date
批量插入测试一次10万循环10次总共100万用时85秒
批量插入测试一次10万循环100次总共1000万用时865秒
插入性能还是不错的
查询测试
在12166454数据中(约等于一千两百万)总共占用硬盘2.8G
查询分词字段 title:中国用时0.031秒
...
分类:
其他好文 时间:
2014-10-14 17:15:08
阅读次数:
491
SCWS是一套基于词频词典的机械式中文分词引擎,它能将一整段的中文文本基本正确地切分成词。 词是中文的最小语素单位,但在书写时并不像英语会在词之间用空格分开, 所以如何准确并快速分词一直是中文分词的攻关难点,但是如何通过SCWS实现呢?...
分类:
Web程序 时间:
2014-10-11 00:49:54
阅读次数:
355
#用于下载安装rJava 和 Rwordseg,如果安装了就注释掉install.packages("rJava")install.packages("Rwordseg", repos="http://R-Forge.R-project.org", type="source")#导入rJava 和R...
分类:
其他好文 时间:
2014-10-08 09:46:45
阅读次数:
230
搜集了一些资料,与同学一起进行了简单的測试,总结例如以下。分词工具特点支持语言原理词典及扩展性StandardAnalyzer中文、英文(unicode)中文:单字符切分英文:依据空格切分ChineseAnalyzer中文,不支持中文和英文及数字混合的文本分词按字分词,与StandardAnalyz...
分类:
其他好文 时间:
2014-10-07 13:18:33
阅读次数:
266
依赖包:1.pymongo2.jieba# -*- coding: utf-8 -*-"""@author: jiangfuqiang"""from HTMLParser import HTMLParserimport urllib2import sysimport pymongoimport ti...
分类:
数据库 时间:
2014-10-06 19:06:30
阅读次数:
266
??
对从网络上抓取到的网页进行处理:建立网络库,分词,去重,if-tdf计算权重,归一化,然后根据查询词将文本相似度从高到低的依次返回给客户
第一阶段:python网络爬虫抓取网页,并存盘
第二阶段:对磁盘上的网页文件建立网页库,将全部网页写入网页库,并建立相应网页的偏移量索引文件(1 23 100)-->(dofid, offset, size),以便读取网页内容
...
分类:
其他好文 时间:
2014-10-04 16:33:27
阅读次数:
269