一:什么是NLPIR? NLPIR汉语分词系统(自然语言处理与信息检索共享平台),主要功能包括中文分词;词性标注;命名实体识别;用户词典功能;支持GBK编码、UTF8编码、BIG5编码。新增微博分词、新词发现与关键词提取;张华平博士先后倾力打造十余年,内核升级10次。 全球用户突破20万,先后获得了 ...
分类:
其他好文 时间:
2016-05-09 15:50:35
阅读次数:
170
一. 使用的开源库 爬虫:https://github.com/code4craft/webmagic.git 分词:https://github.com/ysc/word.git 本项目:https://github.com/umbrellary/beatles.git 二. 操作过程 进行编译 ...
分类:
Web程序 时间:
2016-05-08 16:47:37
阅读次数:
497
最近在学习前端的性能优化,有必要了解一下页面的渲染流程,以便对症下药,找出性能的瓶颈所在。以下是我看到的一些东西,分享给大家。
参考:Understanding the renderer
页面的渲染有以下特点:
单线程事件轮询定义明确、连续、操作有序(HTML5)分词和构建DOM树请求资源并预加载构建渲染树并绘制页面
具体来说:
当我们从网络上得到HTML的相应字节时...
分类:
Web程序 时间:
2016-05-07 08:39:52
阅读次数:
254
网上试了很多种方案都不灵!
最后准于被我使出来了。记录下来,希望能帮到其他的人!
ik分词器地址:https://github.com/medcl/elasticsearch-analysis-ik
1、下载 elasticsearch-analysis-ik-1.4.1.zip
2、解压,进入目录:命令行执行:mvn compile package (确保机器上...
分类:
其他好文 时间:
2016-05-07 07:42:47
阅读次数:
220
条件随机场 <!--more--> 作者:樱花猪 摘要: 本文为七月算法(julyedu.com)12月机器学习第十八次课在线笔记。条件随机场是一种判别式概率模型,是随机场的一种,常用于标注或分析序列资料,如自然语言文字或是生物序列。 引言: “条件随机场”被用于中文分词和词性标注等词法分析工作,一 ...
分类:
其他好文 时间:
2016-05-06 20:14:35
阅读次数:
408
源码下载的地址:https://github.com/fxsjy/jieba
演示地址:http://jiebademo.ap01.aws.af.cm/
特点
1,支持三种分词模式:
a,精确模式,试图将句子最精确地切开,适合文本分析;
b,全模式,把句子中所有的可以成词的词语都扫描出来, 速度非常快,但是不能解决歧义;
c,搜索引擎模式,在...
分类:
其他好文 时间:
2016-05-06 12:56:47
阅读次数:
204
前面介绍了自动完成的大致思路,现在把搜索次数的功能也结合上去。我采用的是hash表来做的,当然也可以在生成分词的时候,另外一个有序集合来维护排序, 然后2个有序集合取交集即可。这里介绍hash的方式来实现。 产生分词 dist.php 自动提示 complete.php ...
分类:
其他好文 时间:
2016-05-05 22:00:00
阅读次数:
308
最常见的词语二分法: $str = '这是我的网站www.7di.net!'; //$str = iconv('GB2312','UTF-8',$str); $result = spStr($str); print_r($result); /** * UTF-8版 中文二元分词 */ functio ...
分类:
Web程序 时间:
2016-05-05 09:39:28
阅读次数:
159
ik git 地址 https://github.com/medcl/elasticsearch-analysis-ik readme 包含各个版本ik对应的 es 版本 下载对应的ikzip包 命令如下 https://github.com/medcl/elasticsearch-analysis ...
分类:
其他好文 时间:
2016-05-04 21:13:13
阅读次数:
166
lucene 2.2包结构: analysis不做详细介绍,因为在实际开发中会使用对中文支持的庖丁分词来做为分词器。 document:是写索引的时候的非常重要的一个工具,要把原始数据转为一个个document,然后进行write. index:写索引的核心包 queryParser:搜索时候的解析 ...
分类:
Web程序 时间:
2016-05-04 18:59:37
阅读次数:
184