码迷,mamicode.com
首页 > 编程语言 > 详细

python链家网高并发异步爬虫and异步存入数据

时间:2019-05-09 15:28:29      阅读:139      评论:0      收藏:0      [点我收藏+]

标签:mys   详情   爬虫   gem   单线程   ges   二手房   ack   class   

python链家网二手房异步IO爬虫,使用asyncio、aiohttp和aiomysql

很多小伙伴初学python时都会学习到爬虫,刚入门时会使用requests、urllib这些同步的库进行单线程爬虫,速度是比较慢的,后学会用scrapy框架进行爬虫,速度很快,原因是scrapy是基于twisted多线程异步IO框架。

本例使用的asyncio也是一个异步IO框架,在python3.5以后加入了协程的关键字async,能够将协程和生成器区分开来,更加方便使用协程。

经过测试,平均1秒可以爬取30个详情页信息

可以使用asyncio.Semaphore来控制并发数,达到限速的效果

技术图片
 
技术图片
 

 

技术图片
 

python链家网高并发异步爬虫and异步存入数据

标签:mys   详情   爬虫   gem   单线程   ges   二手房   ack   class   

原文地址:https://www.cnblogs.com/Pythonmiss/p/10838471.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!