吐槽前天心血来潮, 把自己面试经历下了下来.我觉得自己求职一路来比较心酸, 也付出了比一般人更多的汗水.本以为写出来, 好歹可以作为一篇励志故事.得到的评论却是, 语言只是一门工具. ||| 这句话我已经听了4年了! 我以前也是XX, 现在XXX. ||| 直到你膝盖中了一箭? 我也是用c的....
分类:
编程语言 时间:
2014-08-24 00:11:51
阅读次数:
332
使用 libtorrent 的python绑定库实现一个dht网络爬虫,抓取dht网络中的磁力链接。 dht 网络简介 p2p网络 在P2P网络中,通过种子文件下载资源时,要知道资源在P2P网络中哪些计算机中,这些传输资源的计算机称作pee...
分类:
编程语言 时间:
2014-08-22 14:40:39
阅读次数:
222
Bloom Filter是由Bloom在1970年提出的一种快速查找算法,通过多个hash算法来共同判断某个元素是否在某个集合内。可以用于网络爬虫的url重复过滤、垃圾邮件的过滤等等。
它相比hash容器的一个优势就是,不需要存储元素的实际数据到容器中去来一个个的比较是否存在。
只需要对应的位段来标记是否存在就行了,所以想当节省内存,特别适合海量的数据处理。并且由于省去了存储元素和比较...
分类:
其他好文 时间:
2014-08-18 18:37:02
阅读次数:
339
以前没有写过,这是第一次写,用词不当,表述不清楚的地方请见谅。希望大家多提建议,谢谢。网络爬虫常常被人所忽略,特别是和搜索引擎的光环相比,它似乎有些暗淡无光。我很少看见有详细介绍爬虫实现的文章或者文档。然而,爬虫其实是非常重要的一个系统,特别是在今天这个数据为王的时代。如果你是一个刚刚开始的公司或者...
分类:
其他好文 时间:
2014-08-17 02:17:01
阅读次数:
506
nginx里面有很多的爬虫日志,会影响到后期的数据分析,所以一般会去掉。nginx排除配置:location/{
#去掉爬虫Start
if($http_user_agent~*"bot|spider"){
access_logoff;
}
#去掉爬虫end
proxy_passhttp://cdel_jxjy;
......
}如果特别想要爬虫日志,也可以讲爬虫日志放到指定..
分类:
其他好文 时间:
2014-08-15 10:51:29
阅读次数:
299
我们这个系列准备讲一下--网络爬虫。网络爬虫是搜索引擎系统中十分重要的组成部分,它负责从互联网中搜集网页,采集信息,这些网页信息用于建立索引从而为搜索引擎提供支持,它决定着整个引擎系统的内容是否丰富,信息是否即时,因此其性能的优劣直接影响着搜索引擎的效果。网络爬虫的基本工作原理: (1)从一个...
分类:
其他好文 时间:
2014-08-08 23:54:56
阅读次数:
396
Robots协议(也称为爬虫协议、机器人协议等)的全称是“网络爬虫排除标准”(Robots Exclusion Protocol),网站通过Robots协议告诉搜索引擎哪些页面可以抓取,哪些页面不能抓取。Robots协议是网站出于安全和隐私考虑,防止搜索引擎抓取敏感信息而设置的。搜索引擎的原理是通过...
分类:
其他好文 时间:
2014-08-07 22:47:25
阅读次数:
350
最近在看国外的文档,有些生词不认识。就用谷歌翻译来理解,用着用着闲来无事就按F12查看了下页面的源代码。发现可以用python简单的实现下谷歌翻译的页面功能。于是先上网搜下有没有类似的文章博客,发现几篇不错的,于是参考其他代码与自己的思路,简单的实现了下翻译的功能,代码如下:
import re
import urllib,urllib2
#----------模拟浏览器的行为,向谷...
分类:
编程语言 时间:
2014-08-03 20:39:45
阅读次数:
338
在开发项目的过程,很多情况下我们需要利用互联网上的一些数据,在这种情况下,我们可能要写一个爬虫来爬我们所需要的数据。一般情况下都是利用正则表达式来匹配Html,获取我们所需要的数据。一般情况下分以下三步:1、获取网页的html2、利用正则表达式,获取我们所需要的数据3、分析,使用获取到的数据,(例如...
分类:
其他好文 时间:
2014-08-03 12:40:45
阅读次数:
194