标签:asyncio 正则表达式 下载页面 requests 框架 正则表达 scrapy 相关 iso
阶段大纲:
一.爬虫
1.基本操作
—登录任意网站(伪造浏览器的任何行为)
2.性能相关
—并发方案:
—异步IO:gevent/Twisted/asyncio/aiohttp
—自定义异步IO 模块
—IO多路复用:select
3.Scrapy框架
介绍:异步IO:Twisted
—基于scrapy源码自定义爬虫框架
—使用Scrapy
二.Tornado框架(异步非阻塞)
1.Tornado的基本使用
— 小实例
—自定义组件
2. Tornado的源码解析
3.自定义异步非阻塞框架
爬虫基本操作:
a.爬虫
1.定向(固定的网站)
2.非定向
b.
下载页面:http://www.autohome.com.cn/news/
筛选:正则表达式
-----------开源模块----------
1.requests
2.beautisoup模块
标签:asyncio 正则表达式 下载页面 requests 框架 正则表达 scrapy 相关 iso
原文地址:https://www.cnblogs.com/zypfzw/p/9153006.html