Lucene是一个基于Java的全文索引工具包。
基于Java的全文索引引擎Lucene简介:关于作者和Lucene的历史全文检索的实现:Luene全文索引和数据库索引的比较中文切分词机制简介:基于词库和自动切分词算法的比较具体的安装和使用简介:系统结构介绍和演示Hacking Lucene:简化的查询分析器,删除的实现,定制的排序,应用接口的扩展从Lucene我们还可以学到什么
另外,如...
分类:
编程语言 时间:
2016-05-12 15:39:16
阅读次数:
185
找遍了网上所有的中文的分词工具,没有一个可以拿来用的,所以决定还是自己做一个分词的工具把,分词的核心功能:
1.分词基础算法(常见的有正向最大,逆向最大,最多分词,基于统计,基于理解即无词库分词等,当然一个好的搜索引擎必然是基于多种分词方式的)
2.是否支持强制一元分词:这个是商业的搜索引擎必备的。
3.同义词识别,简体中文和繁体中文的识别对应转换,中文和拼音的互转
4.支持中文分词的时候是否考虑...
分类:
Web程序 时间:
2016-05-12 12:01:51
阅读次数:
360
进度: 我们完成了第一部分内容,即数据爬取和自然语言初步处理 下周计划: 完善情感词库,进一步情感分析 开始写工程的WEB界面 爬取的数据都来自东方财富网的股吧,包括标题,内容,作者,时间,以及评论等等,爬取的数目条数有几百万条,部分数据展示如下: 部分函数如下: 将爬取的数据存入mongodb中再 ...
分类:
其他好文 时间:
2016-05-09 01:31:53
阅读次数:
135
一. 使用的开源库 爬虫:https://github.com/code4craft/webmagic.git 分词:https://github.com/ysc/word.git 本项目:https://github.com/umbrellary/beatles.git 二. 操作过程 进行编译 ...
分类:
Web程序 时间:
2016-05-08 16:47:37
阅读次数:
497
用户界面: 搜狗输入法的用户界面在我看来还是比较友善的,会提供候选词汇,还有各种皮肤让用户按自己喜好选择。 记住用户的选择: 这一点搜过输入法做的很好,它会根据用户平时的输入习惯而记住用户经常使用的词汇,便于用户输入,而且提供各种词库,更增加了用户输入的方便性与快速性。而且对于一些推送服务,用户选择 ...
分类:
其他好文 时间:
2016-04-24 18:48:40
阅读次数:
139
最近刚好在学习搜索引擎分词,有了解一些分词插件,在这里给各位猿友分享一下。本文主要介绍四个分词插件(ICTCLAS、IKAnalyzer、Ansj、Jcseg)和一种自己写算法实现的方式,以及一些词库的推荐。一、ICTCLAS1.1、介绍中文词法分析是中文信息处理的基础与关键。中国科学院计算技术研究所在多年研究工作积累的基础上,研制出了汉语词法分析系统ICTCLAS(Institute of Com...
分类:
其他好文 时间:
2016-04-19 06:32:52
阅读次数:
496
ICTCLAS计算所中文分词(当前最好的汉语词法分析器)系统特点:准确度高(98.5%),性能优越(500KB/s分词速度),词性标注(POS tagging)且支持多种标注集,支持用户自定义词典,支持用户自定义词性标注,支持多平台,支持模块组合关闭(在Configure.xml中设置),支持多编码 ...
分类:
其他好文 时间:
2016-04-18 19:00:04
阅读次数:
309
xmlrpc.php ruby wpscan.rb --url www.example.com 词库密码蛮力枚举用户使用50个线程... ruby wpscan.rb --url www.example.com --wordlist darkc0de.lst --threads 50 “管理”用户名 ...
分类:
其他好文 时间:
2016-04-17 06:23:54
阅读次数:
124
在网上看到一篇关于隐马尔科夫模型的介绍,觉得简直不能再神奇,又在网上找到大神的一篇关于如何用隐马尔可夫模型实现中文拼音输入的博客,无奈大神没给可以运行的代码,只能纯手动网上找到了结巴分词的词库,根据此训练得出隐马尔科夫模型,用维特比算法实现了一个简单的拼音输入法。githuh地址:https://g ...
分类:
编程语言 时间:
2016-04-01 01:03:16
阅读次数:
279
可定制的分词库——Yaha(哑哈)分词在线测试地址:http://yaha.v-find.com/ 部署于GAE yahademo.appspot.comYaha分词主要特点是把分词过程分成了4个阶段,每个阶段都可以让用户加入自己的一些定制,以面向不同的用户需求。 这是一个最简单真白的示例:# -* ...
分类:
其他好文 时间:
2016-03-26 10:51:20
阅读次数:
128