Solr调研总结开发类型全文检索相关开发Solr版本4.2文件内容本文介绍solr的功能使用及相关注意事项;主要包括以下内容:环境搭建及调试、两个核心配置文件介绍、中文分词器配置、维护索引、查询索引,高亮显示、拼写检查、搜索建议、分组统计、自动聚类、相似匹配、拼音检索等功能的使用方法。在代码文本框中...
分类:
其他好文 时间:
2014-05-26 22:22:05
阅读次数:
886
由于某些需求,要临时搭建局域网络,给小范围内大量移动客户端提供特定的网络服务,这样的服务通常包含常见的HTTP服务、数据文件下载服务、RESTFul接口服务等。市面常见的非企业级WIFI路由器能够承受的用户连接不会太大,一般也就数十个,便携的MIFI用户连接更少,连接超过十多个就无法正常使用了,.....
分类:
移动开发 时间:
2014-05-26 21:34:42
阅读次数:
355
v1.0发布后,承蒙各位博友们的热心关注,也给我不少意见和建议,在此我真诚的感谢 @冰麟轻武
等朋友,你们的支持和鼓励,是这个开源项目最大的推动力。v2.0在除了细枝末节外,在功能上主要做了一下更新:1、实体类不再需要自己跟踪属性值变化:
[Serializable] public cl...
分类:
其他好文 时间:
2014-05-26 20:56:58
阅读次数:
274
前面展示了使用nodejs技术和jqm来搭建一个简单的支持CRUD操作应用的服务端部分(参见:nodejs
+ jquery
Mobile构建一个简单的移动web(服务端)),服务端采用nodejs技术实现,使用了mongodb数据库和轻量级web开发框架expressJS,
路由使用restful...
分类:
移动开发 时间:
2014-05-26 13:07:21
阅读次数:
356
这里没有理论上的东西,仅仅是做下记录。我这个例子偷懒下了,直接在VS2008里面建了个WCF服务应用程序一、接口,用WebGet的时候需要添加命名空间:System.ServiceModel;System.ServiceModel.Web;[ServiceContract]
public in...
分类:
其他好文 时间:
2014-05-26 10:01:05
阅读次数:
301
网络应用程序,分为前端和后端两个部分。当前的发展趋势,就是前端设备层出不穷(手机、平板、桌面电脑、其他专用设备......)。因此,必须有一种统一的机制,方便不同的前端设备与后端进行通信。这导致API构架的流行,甚至出现"API
First"的设计思想。RESTful API是目前比较成熟的一套互联...
原来的string docvalues使用utf-8编码,加载时转码花费大量时间,我们把转码实现从new String(bytes, "UTF-8")改用lucene的bytesRef.utf8ToString,减少了大约十秒的时间。
想进一步优化,我们使用UTF-16LE编码,解码非常简单甚至只需拷贝,如果用简单的byte[]到char[]转换,可以在节省7秒时间,而如果用unsafe可以节省...
分类:
其他好文 时间:
2014-05-25 01:46:44
阅读次数:
246
(一)搜索引擎的开发一般可分为以下三大部分
1、数据采集层:一般使用爬虫获取互联网的数据,重要的开源项目有Heritrxi
2、数据分析处理层:将从互联网上获取到的数据进行提取归类、分词、语义分析得出索引得内容,等待用户查询使用,重要的开源项目有Lucene
3、视图层:也用户的交互界面,如一个网站的首页
其基本架构可参考下图:...
分类:
其他好文 时间:
2014-05-24 22:20:16
阅读次数:
349
1.基本介绍:paoding:Lucene中文分词“庖丁解牛”
PaodingAnalysisimdict :imdict智能词典所采用的智能中文分词程序mmseg4j: 用 Chih-Hao Tsai 的 MMSeg 算法
实现的中文分词器ik :采用了特有的“正向迭代最细粒度切分算法“,多子处理...
分类:
其他好文 时间:
2014-05-24 11:47:16
阅读次数:
358
本篇是本人在Solr的基础上,配置了中文分词器,并对其进行的性能测试总结,具体包括使用mmseg4j、IKAnalyzer、Ansj,分别从创建索引效果、创建索引性能、数据搜索效率等方面进行衡量。具体的Solr使用方法假设读者已有了基础,关于Solr的性能指标见前期的Solr博文。
分类:
其他好文 时间:
2014-05-24 09:33:03
阅读次数:
371