码迷,mamicode.com
首页 >  
搜索关键字:词库    ( 312个结果
今日工作重点
一、搜索到问答的任务书范围确定(一上班就需要做,以防止影响小胡工作,大约10点能够搞定,原则是简单易用)二、型号搜索的结果一定搞定(老板在乎的内容,一定搞定,上午基本能够搞定)三、型号词库如何整理的问题,想办法(量和质)四、仪器词库如何整理的问题,想办法(量和质)五、行业词库今天沟通,沟通理由
分类:其他好文   时间:2014-07-16 20:16:43    阅读次数:135
新版搜索日志记录-持续更新
更新了公司的搜索,写下日志来激励自己!新版搜索新特性:solr版本升级到solr4.8.1中文分词器改用ansj,开源,简洁,强大,无害词库兼顾任意编码格式,不怕乱码分词器和分词词库分离,降低更新分词器版本难度分词器配置统一在library.properties中,在solr/WEB-INF/cla...
分类:其他好文   时间:2014-07-13 08:04:32    阅读次数:268
lucenc.net 全文检索 创建索引、 查询、分页
#region 创建、跟新词库 /// /// 创建、跟新词库 /// private void CreateIndexData() { //索引库文件夹 FSDirectory dir = FSDirectory.Open(new DirectoryInfo(pat...
分类:Web程序   时间:2014-06-27 10:17:59    阅读次数:232
elasticsearch中文分词(mmseg)——手动添加词典
elasticsearch本身的中文分词插件效果都不理想,手动添加词典可以在一定程度上进行弥补。 经过多次实验发现,mmseg的分词机制采用正向最长匹配算法,例如,针对“小时代”这个单词,其自带的词典中没有包含该词,故当用户搜索小时代时,检索不到任何结果。 在咸鱼老婆的虚心指导下,我终于找到了解决办法。 手动添加该词到mmseg的词库中,有两种方法: 1、将该词加入到自带的某个词典中(非停...
分类:其他好文   时间:2014-06-27 09:30:33    阅读次数:232
【字典树应用】联想用户最想输入的词汇
第一章:抛砖引玉 字典树是一种基于链表的数据结构,以统计词频并返回用户最想输入的词汇为例,分享一下字典树的应用心得。 刚建立的用户词库,用户输入两次“hilili”,输入一次“hilucy”,此时用户再次输入“hi”,我们应该联想到用户可能要输入的单词是“hilili”,以下为统计示例图。 字典.....
分类:其他好文   时间:2014-05-26 15:23:51    阅读次数:313
Java实现敏感词过滤
敏感词、文字过滤是一个网站必不可少的功能,如何设计一个好的、高效的过滤算法是非常有必要的。前段时间我一个朋友(马上毕业,接触编程不久)要我帮他看一个文字过滤的东西,它说检索效率非常慢。我把它程序拿过来一看,整个过程如下:读取敏感词库、如果HashSet集合中,获取页面上传文字,然后进行匹配。我就想这...
分类:编程语言   时间:2014-05-25 22:06:08    阅读次数:496
Java实现敏感词过滤
敏感词、文字过滤是一个网站必不可少的功能,如何设计一个好的、高效的过滤算法是非常有必要的。前段时间我一个朋友(马上毕业,接触编程不久)要我帮他看一个文字过滤的东西,它说检索效率非常慢。我把它程序拿过来一看,整个过程如下:读取敏感词库、如果HashSet集合中,获取页面上传文字,然后进行匹配。我就想这个过程肯定是非常慢的。对于他这个没有接触的人来说我想也只能想到这个,更高级点就是正则表达式。但是非常...
分类:编程语言   时间:2014-05-25 21:26:01    阅读次数:386
新辰:SEOer如何降低非原创文章带来的影响?
有朋友向新辰抱怨:老板给的任务太多,每天都要写几篇原创,半个月还好说,可一个月下来都不知道写什么了。新辰说过,可以挖掘出很多长尾词,组建一个词库,然后就围绕这个词库写就行;但难倒了一波人,于是乎,便出现了大量的复制粘贴或伪原创相似的页面,当然,这是不友好的SEO行为,那SEOer应该如何降低影响呢? 虽然,百度已经说明了即使文章不是原创,只要具有可读性和符合用户体验就可收录,但是很多朋友应该...
分类:其他好文   时间:2014-05-22 16:59:05    阅读次数:376
coreseek 自定义词库(四)数据过滤
条件过滤在列表中是常用的功能,使用mysql数据库和sphinx进行搜索需要安装sphinx引擎mysql命令行中,showenginesphinxstates;可以查看是否有sphinxex引擎,如果没有则需要安装,否则无法使用这样的语句:select*fromdocumentswheregroup_id=2andquery=‘@title测试;mode=extende..
分类:其他好文   时间:2014-05-21 01:40:43    阅读次数:426
coreseek 自定义词库(三)排序 setsortmode
对于mysql获取数据,可以根据不同的条件来进行排序,同样使用coreseek也有同样的排序功能。PHP的API中只有SetSortMode(模式,条件)方法,他也支持多个字段一次排序。根据上一篇的数据:require(‘sphinxapi.php‘);$sc=newSphinxClient();$sc->SetSortMode(SPH_SORT_ATTR_DESC..
分类:其他好文   时间:2014-05-16 02:43:27    阅读次数:627
312条   上一页 1 ... 29 30 31 32 下一页
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!