一、搜索到问答的任务书范围确定(一上班就需要做,以防止影响小胡工作,大约10点能够搞定,原则是简单易用)二、型号搜索的结果一定搞定(老板在乎的内容,一定搞定,上午基本能够搞定)三、型号词库如何整理的问题,想办法(量和质)四、仪器词库如何整理的问题,想办法(量和质)五、行业词库今天沟通,沟通理由
分类:
其他好文 时间:
2014-07-16 20:16:43
阅读次数:
135
更新了公司的搜索,写下日志来激励自己!新版搜索新特性:solr版本升级到solr4.8.1中文分词器改用ansj,开源,简洁,强大,无害词库兼顾任意编码格式,不怕乱码分词器和分词词库分离,降低更新分词器版本难度分词器配置统一在library.properties中,在solr/WEB-INF/cla...
分类:
其他好文 时间:
2014-07-13 08:04:32
阅读次数:
268
#region 创建、跟新词库
///
/// 创建、跟新词库
///
private void CreateIndexData()
{
//索引库文件夹
FSDirectory dir = FSDirectory.Open(new DirectoryInfo(pat...
分类:
Web程序 时间:
2014-06-27 10:17:59
阅读次数:
232
elasticsearch本身的中文分词插件效果都不理想,手动添加词典可以在一定程度上进行弥补。
经过多次实验发现,mmseg的分词机制采用正向最长匹配算法,例如,针对“小时代”这个单词,其自带的词典中没有包含该词,故当用户搜索小时代时,检索不到任何结果。
在咸鱼老婆的虚心指导下,我终于找到了解决办法。
手动添加该词到mmseg的词库中,有两种方法:
1、将该词加入到自带的某个词典中(非停...
分类:
其他好文 时间:
2014-06-27 09:30:33
阅读次数:
232
第一章:抛砖引玉 字典树是一种基于链表的数据结构,以统计词频并返回用户最想输入的词汇为例,分享一下字典树的应用心得。 刚建立的用户词库,用户输入两次“hilili”,输入一次“hilucy”,此时用户再次输入“hi”,我们应该联想到用户可能要输入的单词是“hilili”,以下为统计示例图。
字典.....
分类:
其他好文 时间:
2014-05-26 15:23:51
阅读次数:
313
敏感词、文字过滤是一个网站必不可少的功能,如何设计一个好的、高效的过滤算法是非常有必要的。前段时间我一个朋友(马上毕业,接触编程不久)要我帮他看一个文字过滤的东西,它说检索效率非常慢。我把它程序拿过来一看,整个过程如下:读取敏感词库、如果HashSet集合中,获取页面上传文字,然后进行匹配。我就想这...
分类:
编程语言 时间:
2014-05-25 22:06:08
阅读次数:
496
敏感词、文字过滤是一个网站必不可少的功能,如何设计一个好的、高效的过滤算法是非常有必要的。前段时间我一个朋友(马上毕业,接触编程不久)要我帮他看一个文字过滤的东西,它说检索效率非常慢。我把它程序拿过来一看,整个过程如下:读取敏感词库、如果HashSet集合中,获取页面上传文字,然后进行匹配。我就想这个过程肯定是非常慢的。对于他这个没有接触的人来说我想也只能想到这个,更高级点就是正则表达式。但是非常...
分类:
编程语言 时间:
2014-05-25 21:26:01
阅读次数:
386
有朋友向新辰抱怨:老板给的任务太多,每天都要写几篇原创,半个月还好说,可一个月下来都不知道写什么了。新辰说过,可以挖掘出很多长尾词,组建一个词库,然后就围绕这个词库写就行;但难倒了一波人,于是乎,便出现了大量的复制粘贴或伪原创相似的页面,当然,这是不友好的SEO行为,那SEOer应该如何降低影响呢?
虽然,百度已经说明了即使文章不是原创,只要具有可读性和符合用户体验就可收录,但是很多朋友应该...
分类:
其他好文 时间:
2014-05-22 16:59:05
阅读次数:
376
条件过滤在列表中是常用的功能,使用mysql数据库和sphinx进行搜索需要安装sphinx引擎mysql命令行中,showenginesphinxstates;可以查看是否有sphinxex引擎,如果没有则需要安装,否则无法使用这样的语句:select*fromdocumentswheregroup_id=2andquery=‘@title测试;mode=extende..
分类:
其他好文 时间:
2014-05-21 01:40:43
阅读次数:
426
对于mysql获取数据,可以根据不同的条件来进行排序,同样使用coreseek也有同样的排序功能。PHP的API中只有SetSortMode(模式,条件)方法,他也支持多个字段一次排序。根据上一篇的数据:require(‘sphinxapi.php‘);$sc=newSphinxClient();$sc->SetSortMode(SPH_SORT_ATTR_DESC..
分类:
其他好文 时间:
2014-05-16 02:43:27
阅读次数:
627