搜索关键字：分词，搜索到2158个结果！码迷,mamicode.com！

汉语分词软件的使用（python底下）

目前我常常使用的分词有结巴分词、NLPIR分词等等最近是在使用结巴分词，稍微做一下推荐，还是蛮好用的。一、结巴分词简介利用结巴分词进行中文分词，基本实现原理有三：基于Trie树结构实现高效的词图扫描，生成句子中汉字所有可能成词情况所构成的有向无环图（DAG)采用了动态规划查找最大概率路径, 找出基于...

分类：编程语言时间：2014-10-17 23:14:23 阅读次数：319

lucene.net 3.0.3、结合盘古分词进行搜索的小例子(转)

lucene.net 3.0.3、结合盘古分词进行搜索的小例子（分页功能）添加：2013-12-25更新：2013-12-26 新增分页功能。更新：2013-12-27 新增按分类查询功能，调整索引行新增记录的图片字段。//封装类[csharp] view plaincopyprint?usingS...

分类：Web程序时间：2014-10-17 02:44:13 阅读次数：402

【英语】20141015 词汇

mountains n. 山bullying v.恐吓，威逼( bully的现在分词 );豪;跋扈bullied adj.被欺负了 v.恐吓，威逼( bully的过去式和过去分词 )healthier adj. 健康的

分类：其他好文时间：2014-10-16 00:42:41 阅读次数：136

Win7下Solr4.10.1和IK Analyzer中文分词

搜索引擎Solr4.10.1笔记（二）——IK Analyzer中文分词

分类：Windows程序时间：2014-10-15 14:11:50 阅读次数：239

solr 亿万级数据查询性能测试

废话不多说，我电脑配置 i7四核cpu 8G内存插入数据文档中有5个字段，其中有两个分词，一个int,一个date 批量插入测试一次10万循环10次总共100万用时85秒批量插入测试一次10万循环100次总共1000万用时865秒插入性能还是不错的查询测试在12166454数据中（约等于一千两百万）总共占用硬盘2.8G 查询分词字段 title:中国用时0.031秒 ...

分类：其他好文时间：2014-10-14 17:15:08 阅读次数：491

PHP中文分词扩展 SCWS

SCWS是一套基于词频词典的机械式中文分词引擎，它能将一整段的中文文本基本正确地切分成词。词是中文的最小语素单位，但在书写时并不像英语会在词之间用空格分开，所以如何准确并快速分词一直是中文分词的攻关难点，但是如何通过SCWS实现呢？...

分类：Web程序时间：2014-10-11 00:49:54 阅读次数：355

R分词

#用于下载安装rJava 和 Rwordseg,如果安装了就注释掉install.packages("rJava")install.packages("Rwordseg", repos="http://R-Forge.R-project.org", type="source")#导入rJava 和R...

分类：其他好文时间：2014-10-08 09:46:45 阅读次数：230

几种开源分词工具的比較

搜集了一些资料，与同学一起进行了简单的測试，总结例如以下。分词工具特点支持语言原理词典及扩展性StandardAnalyzer中文、英文（unicode）中文：单字符切分英文：依据空格切分ChineseAnalyzer中文，不支持中文和英文及数字混合的文本分词按字分词,与StandardAnalyz...

分类：其他好文时间：2014-10-07 13:18:33 阅读次数：266

python抓取伯乐在线的全部文章，对标题分词后存入mongodb中

依赖包：1.pymongo2.jieba# -*- coding: utf-8 -*-"""@author: jiangfuqiang"""from HTMLParser import HTMLParserimport urllib2import sysimport pymongoimport ti...

分类：数据库时间：2014-10-06 19:06:30 阅读次数：266

搜索引擎源码及流程

?? 对从网络上抓取到的网页进行处理：建立网络库，分词，去重，if-tdf计算权重，归一化，然后根据查询词将文本相似度从高到低的依次返回给客户第一阶段：python网络爬虫抓取网页，并存盘第二阶段：对磁盘上的网页文件建立网页库，将全部网页写入网页库，并建立相应网页的偏移量索引文件(1 23 100)-->(dofid, offset, size)，以便读取网页内容 ...

分类：其他好文时间：2014-10-04 16:33:27 阅读次数：269

共2158条上一页 1 ... 198 199 200 201 202 ... 216 下一页

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)