#-*-coding:utf-8-*-#python:2.x__author__='Administrator'importurllib2#例子LOGIN='wesc'PASSWD="you'llNeverGuess"URL='http://localhost'defh1(url):fromurlp...
分类:
编程语言 时间:
2014-09-13 17:10:35
阅读次数:
247
上周,老大压下来任务,让写一个网络爬虫,负责爬某一个行业网站的数据信息。由于本人只会shell编程语言,其它编程语言从未涉猎,因此就只能硬着头皮用shell去写了。转眼之前已经过去一周了,一切从无到有,经历的坎坷无数,这里我就不一一吐槽。这里呢,我就简单和大家分享下..
分类:
其他好文 时间:
2014-09-11 09:45:02
阅读次数:
335
正则表达式和python的re模块
By 钟桓
9月 4 2014 更新日期:9月 4 2014
文章目录
1. 什么是正则表达式2. 元字符使用一览表:3. 字符转义4. 重复5. 字符类6. 分支条件7. 分组8. re模块
8.0.1. compile8.0.2. match和search8.0.3. split8.0.4. findall8.0.5. findite...
分类:
编程语言 时间:
2014-09-05 11:29:41
阅读次数:
309
python网络爬虫学习笔记
By 钟桓
9月 4 2014 更新日期:9月 4 2014
文章目录
1. 介绍:2. 从简单语句中开始:3. 传送数据给服务器4. HTTP头—描述数据的数据5. 异常
5.0.1. URLError5.0.2. HTTPError5.0.3. 处理异常5.0.4. info和geturl
6. Opener和Handler7. Ba...
分类:
编程语言 时间:
2014-09-04 15:04:19
阅读次数:
357
Robots协议(也称为爬虫协议、机器人协议等)的全称是“网络爬虫排除标准”(Robots Exclusion Protocol),网站通过Robots协议告诉搜索引擎哪些页面可以抓取,哪些页面不能抓取。Robots协议的本质是网站和搜索引擎爬虫的沟通方式,用来指导搜索引擎更好地抓取网站内容,而不是作为搜索引擎之间互相限制和不正当竞争的工具。
找到wechall的robots.txt ht...
分类:
其他好文 时间:
2014-09-04 15:03:09
阅读次数:
542
对于想用每个想用Python开发网络爬虫的开发者来说,Scrapy无疑是一个极好的开源工具。今天安装之后觉得Scrapy的安装确实不易啊。所以在此博文一篇,往后来着少走弯路。 废话不多说了,如果你还不知道Scrapy是何物,可登陆在其官网http://scrapy.org/一览究竟,在此不再赘述。 ...
分类:
编程语言 时间:
2014-09-01 15:21:13
阅读次数:
405
Bloom Filter是由Bloom在1970年提出的一种快速查找算法,通过多个hash算法来共同判断某个元素是否在某个集合内。可以用于网络爬虫的url重复过滤、垃圾邮件的过滤等等。
分类:
其他好文 时间:
2014-09-01 14:01:23
阅读次数:
238
网络爬虫架构在Nutch+Hadoop之上,是一个典型的分布式离线批量处理架构,有非常优异的吞吐量和抓取性能并提供了大量的配置定制选项。由于网络爬虫只负责网络资源的抓取,所以,需要一个分布式搜索引擎,用来对网络...
分类:
其他好文 时间:
2014-08-30 23:13:50
阅读次数:
434
http://blog.csdn.net/pi9nc/article/details/9734437 一、网络爬虫的定义网络爬虫,即Web Spider,是一个很形象的名字。把互联网比喻成一个蜘蛛网,那么Spider就是在网上爬来爬去的蜘蛛。网络蜘蛛是通过网页的链接地址来寻找网页的。从网站某一个页面...
分类:
编程语言 时间:
2014-08-26 00:06:55
阅读次数:
299
吐槽前天心血来潮, 把自己面试经历下了下来.我觉得自己求职一路来比较心酸, 也付出了比一般人更多的汗水.本以为写出来, 好歹可以作为一篇励志故事.得到的评论却是, 语言只是一门工具. ||| 这句话我已经听了4年了! 我以前也是XX, 现在XXX. ||| 直到你膝盖中了一箭? 我也是用c的....
分类:
编程语言 时间:
2014-08-24 12:53:33
阅读次数:
313