MYSQL处理百万级以上的数据提高查询速度的方法,其它数据库应用也有一定的参考价值:1.应尽量避免在 where 子句中使用!=或操作符,否则将引擎放弃使用索引而进行全表扫描。2.对查询进行优化,应尽量避免全表扫描,首先应考虑在 where 及 order by 涉及的列上建立索引。3.应尽量避免在...
分类:
数据库 时间:
2014-07-16 23:25:20
阅读次数:
272
垂直搜索引擎研发经验总结什么是垂直搜索引擎? 垂直搜索引擎是针对某一行业的搜索引擎,是搜索引擎的细化和延伸,是对网页库中的某类信息进行一次整合,定向分字段抽取出所须要的数据,再进行二次处理和索引,最后依据用户提交的请求,返回搜索结果。 与普通的网页搜索引擎相比,它们最大的差别是对网页信息进行了结.....
分类:
其他好文 时间:
2014-07-16 23:20:16
阅读次数:
253
头部代码1、标题标签(title标签)在HTML5中标题标签依然存在,其仍然具有不可替代的作用;不过我们看到还有更多的可供搜索引擎识别的代码,我们将改代码的等级微降。2、元标签(meta标签)字符集编码声明标签该标签原本就是搜索引擎必看且首先要看的标签,其他属性都省略唯独留下charset属性能看到...
分类:
Web程序 时间:
2014-07-16 23:09:01
阅读次数:
181
最近在一个PHP项目中对接外部接口涉及到WebService,搜索引擎上相关文章不是很多,找到的大都是引用一个号称很强大的开源软件 NuSOAP(下载地址:http://sourceforge.net/projects/nusoap/),即一些类。文章写描述的环境是PHP 4.3,现在都流行PHP ...
分类:
Web程序 时间:
2014-07-10 13:53:34
阅读次数:
235
mod_autoindex的作用是生成目录索引,类似于unix的ls命令,或者是win32的dir命令当从服务器请求一个目录的时候,可能来自:mod_dir的DirectoryIndex指定首页mod_autoindex列目录这两个模块都是相互独立的,如有需要可以放心的删除、替换。mod_autoindex模块的指令有:AddAlt,Ad..
分类:
其他好文 时间:
2014-06-28 00:16:42
阅读次数:
374
git中文件内容并没有真正存储在索引(.git/index)或者提交对象中,而是以blob的形式分别存储在数据库中(.git/objects),并用SHA-1值来校验。 索引文件用识别码列出相关的blob文件以及别的数据。对于提交来说,以树(tree)的形式存储,同样用对于的哈希值识别。树对应着.....
分类:
其他好文 时间:
2014-06-27 22:40:02
阅读次数:
461
#region 创建、跟新词库
///
/// 创建、跟新词库
///
private void CreateIndexData()
{
//索引库文件夹
FSDirectory dir = FSDirectory.Open(new DirectoryInfo(pat...
分类:
Web程序 时间:
2014-06-27 10:17:59
阅读次数:
232
一.目的。
在教程(二)(http://blog.csdn.net/u012150179/article/details/32911511)中使用基于Spider实现了自己的w3cschool_spider,并在items.py中定义了数据结构,
在pipelines.py中实现获得数据的过滤以及保存。
但是以上述方法只能爬取start_url列表中的网页,而网络爬虫如google等搜索引擎...
分类:
Web程序 时间:
2014-06-27 09:37:22
阅读次数:
15554
目前分词性能比较差,只有1.65M/s,同事在没有改变主要算法的情况下做了一点优化调整,到3.52M/s,但对性能的提升仍然不够明显。我感觉亟须解决几个问题:
1.search时keyword分词也按多种粒度进行,然后分别sloppyphrase,最后or起来,由于大粒度分的词词频低,因此idf大,它们在排序时优先级更高,符合期望。现在只做一个粒度的切法,又要求在索引里面都能找到,感觉不太现实。...
分类:
其他好文 时间:
2014-06-27 07:07:34
阅读次数:
203
在查询时,如果使用到LIKE关键字,就要注意有没有使用到索引;没有使用索引前:mysql>explainselect*fromemployeeswherefirst_name=‘Georgi‘\G;***************************1.row***************************id:1select_type:SIMPLEtable:employeestype:ALLpossible_keys:NU..
分类:
数据库 时间:
2014-06-27 06:10:07
阅读次数:
272