码迷,mamicode.com
首页 >  
搜索关键字:分词    ( 2158个结果
汉语分词软件的使用 (python底下)
目前我常常使用的分词有结巴分词、NLPIR分词等等最近是在使用结巴分词,稍微做一下推荐,还是蛮好用的。一、结巴分词简介利用结巴分词进行中文分词,基本实现原理有三:基于Trie树结构实现高效的词图扫描,生成句子中汉字所有可能成词情况所构成的有向无环图(DAG)采用了动态规划查找最大概率路径, 找出基于...
分类:编程语言   时间:2014-10-17 23:14:23    阅读次数:319
lucene.net 3.0.3、结合盘古分词进行搜索的小例子(转)
lucene.net 3.0.3、结合盘古分词进行搜索的小例子(分页功能)添加:2013-12-25更新:2013-12-26 新增分页功能。更新:2013-12-27 新增按分类查询功能,调整索引行新增记录的图片字段。//封装类[csharp] view plaincopyprint?usingS...
分类:Web程序   时间:2014-10-17 02:44:13    阅读次数:402
【英语】20141015 词汇
mountains n. 山bullying v.恐吓,威逼( bully的现在分词 );豪;跋扈bullied adj.被欺负了 v.恐吓,威逼( bully的过去式和过去分词 )healthier adj. 健康的
分类:其他好文   时间:2014-10-16 00:42:41    阅读次数:136
Win7下Solr4.10.1和IK Analyzer中文分词
搜索引擎Solr4.10.1笔记(二)——IK Analyzer中文分词
分类:Windows程序   时间:2014-10-15 14:11:50    阅读次数:239
solr 亿万级数据查询性能测试
废话不多说,我电脑配置 i7四核cpu 8G内存 插入数据文档中有5个字段,其中有两个分词,一个int,一个date 批量插入测试一次10万循环10次总共100万用时85秒 批量插入测试一次10万循环100次总共1000万用时865秒 插入性能还是不错的 查询测试 在12166454数据中(约等于一千两百万)总共占用硬盘2.8G 查询分词字段 title:中国用时0.031秒 ...
分类:其他好文   时间:2014-10-14 17:15:08    阅读次数:491
PHP中文分词扩展 SCWS
SCWS是一套基于词频词典的机械式中文分词引擎,它能将一整段的中文文本基本正确地切分成词。 词是中文的最小语素单位,但在书写时并不像英语会在词之间用空格分开, 所以如何准确并快速分词一直是中文分词的攻关难点,但是如何通过SCWS实现呢?...
分类:Web程序   时间:2014-10-11 00:49:54    阅读次数:355
R分词
#用于下载安装rJava 和 Rwordseg,如果安装了就注释掉install.packages("rJava")install.packages("Rwordseg", repos="http://R-Forge.R-project.org", type="source")#导入rJava 和R...
分类:其他好文   时间:2014-10-08 09:46:45    阅读次数:230
几种开源分词工具的比較
搜集了一些资料,与同学一起进行了简单的測试,总结例如以下。分词工具特点支持语言原理词典及扩展性StandardAnalyzer中文、英文(unicode)中文:单字符切分英文:依据空格切分ChineseAnalyzer中文,不支持中文和英文及数字混合的文本分词按字分词,与StandardAnalyz...
分类:其他好文   时间:2014-10-07 13:18:33    阅读次数:266
python抓取伯乐在线的全部文章,对标题分词后存入mongodb中
依赖包:1.pymongo2.jieba# -*- coding: utf-8 -*-"""@author: jiangfuqiang"""from HTMLParser import HTMLParserimport urllib2import sysimport pymongoimport ti...
分类:数据库   时间:2014-10-06 19:06:30    阅读次数:266
搜索引擎源码及流程
?? 对从网络上抓取到的网页进行处理:建立网络库,分词,去重,if-tdf计算权重,归一化,然后根据查询词将文本相似度从高到低的依次返回给客户 第一阶段:python网络爬虫抓取网页,并存盘 第二阶段:对磁盘上的网页文件建立网页库,将全部网页写入网页库,并建立相应网页的偏移量索引文件(1   23   100)-->(dofid,   offset,   size),以便读取网页内容   ...
分类:其他好文   时间:2014-10-04 16:33:27    阅读次数:269
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!