码迷,mamicode.com
首页 >  
搜索关键字:网络爬虫    ( 1546个结果
C++ 实现网络爬虫
吐槽前天心血来潮, 把自己面试经历下了下来.我觉得自己求职一路来比较心酸, 也付出了比一般人更多的汗水.本以为写出来, 好歹可以作为一篇励志故事.得到的评论却是, 语言只是一门工具. ||| 这句话我已经听了4年了! 我以前也是XX, 现在XXX. ||| 直到你膝盖中了一箭? 我也是用c的....
分类:编程语言   时间:2014-08-24 00:11:51    阅读次数:332
python开发的 dht网络爬虫
使用 libtorrent 的python绑定库实现一个dht网络爬虫,抓取dht网络中的磁力链接。 dht 网络简介 p2p网络 在P2P网络中,通过种子文件下载资源时,要知道资源在P2P网络中哪些计算机中,这些传输资源的计算机称作pee...
分类:编程语言   时间:2014-08-22 14:40:39    阅读次数:222
利用bloom filter算法处理大规模数据过滤
Bloom Filter是由Bloom在1970年提出的一种快速查找算法,通过多个hash算法来共同判断某个元素是否在某个集合内。可以用于网络爬虫的url重复过滤、垃圾邮件的过滤等等。 它相比hash容器的一个优势就是,不需要存储元素的实际数据到容器中去来一个个的比较是否存在。 只需要对应的位段来标记是否存在就行了,所以想当节省内存,特别适合海量的数据处理。并且由于省去了存储元素和比较...
分类:其他好文   时间:2014-08-18 18:37:02    阅读次数:339
反思自己一年前做数据采集的经过——网络爬虫
以前没有写过,这是第一次写,用词不当,表述不清楚的地方请见谅。希望大家多提建议,谢谢。网络爬虫常常被人所忽略,特别是和搜索引擎的光环相比,它似乎有些暗淡无光。我很少看见有详细介绍爬虫实现的文章或者文档。然而,爬虫其实是非常重要的一个系统,特别是在今天这个数据为王的时代。如果你是一个刚刚开始的公司或者...
分类:其他好文   时间:2014-08-17 02:17:01    阅读次数:506
nginx 日志过滤网络爬虫访问日志
nginx里面有很多的爬虫日志,会影响到后期的数据分析,所以一般会去掉。nginx排除配置:location/{ #去掉爬虫Start if($http_user_agent~*"bot|spider"){ access_logoff; } #去掉爬虫end proxy_passhttp://cdel_jxjy; ...... }如果特别想要爬虫日志,也可以讲爬虫日志放到指定..
分类:其他好文   时间:2014-08-15 10:51:29    阅读次数:299
Socket网络编程--网络爬虫(1)
我们这个系列准备讲一下--网络爬虫。网络爬虫是搜索引擎系统中十分重要的组成部分,它负责从互联网中搜集网页,采集信息,这些网页信息用于建立索引从而为搜索引擎提供支持,它决定着整个引擎系统的内容是否丰富,信息是否即时,因此其性能的优劣直接影响着搜索引擎的效果。网络爬虫的基本工作原理: (1)从一个...
分类:其他好文   时间:2014-08-08 23:54:56    阅读次数:396
网络基础知识---Roberts协议
Robots协议(也称为爬虫协议、机器人协议等)的全称是“网络爬虫排除标准”(Robots Exclusion Protocol),网站通过Robots协议告诉搜索引擎哪些页面可以抓取,哪些页面不能抓取。Robots协议是网站出于安全和隐私考虑,防止搜索引擎抓取敏感信息而设置的。搜索引擎的原理是通过...
分类:其他好文   时间:2014-08-07 22:47:25    阅读次数:350
WebCollector入门教程(中文版)
WebCollector入门教程(中文版)...
分类:Web程序   时间:2014-08-06 23:02:52    阅读次数:351
python网络爬虫入门(二)——用python简单实现调用谷歌翻译
最近在看国外的文档,有些生词不认识。就用谷歌翻译来理解,用着用着闲来无事就按F12查看了下页面的源代码。发现可以用python简单的实现下谷歌翻译的页面功能。于是先上网搜下有没有类似的文章博客,发现几篇不错的,于是参考其他代码与自己的思路,简单的实现了下翻译的功能,代码如下: import re import urllib,urllib2 #----------模拟浏览器的行为,向谷...
分类:编程语言   时间:2014-08-03 20:39:45    阅读次数:338
OC利用正则表达式获取网络资源(网络爬虫)
在开发项目的过程,很多情况下我们需要利用互联网上的一些数据,在这种情况下,我们可能要写一个爬虫来爬我们所需要的数据。一般情况下都是利用正则表达式来匹配Html,获取我们所需要的数据。一般情况下分以下三步:1、获取网页的html2、利用正则表达式,获取我们所需要的数据3、分析,使用获取到的数据,(例如...
分类:其他好文   时间:2014-08-03 12:40:45    阅读次数:194
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!