标签:git list 执行 分析 请求头 requests tree tor 响应
爬虫概要
性能相关:
- 线程池
- 进程池
- 异步非阻塞,
- (异步=回调,非阻塞=不等待)遇到IO请求不等待,继续执行其他任务,如果IO请求响应内容回来了,自动回调执行某个函数
- 协程
- twisted
- gevent
- greenlet,协程
- libevent
- asyncio
- tornado
Scrapy框架
- 性能相关: twisted
- URL
- 对象, #id
redis-scrapy
1. 基本爬虫
- 基本获取页面指定内容
- 登录之后
- github
- chouti
- 博客园(用户名密码加密)
- 用户名和密码
- 知乎,新浪微博(图片验证码)
- 第三方
- xxx
课堂代码:
https://github.com/liyongsan/git_class/tree/master/day35/s16day35
标签:git list 执行 分析 请求头 requests tree tor 响应
原文地址:http://www.cnblogs.com/liyongsan/p/7675625.html