码迷,mamicode.com
首页 > 其他好文 > 详细

scrapy基础知识之 关于爬虫部分一些建议:

时间:2017-06-09 15:22:51      阅读:162      评论:0      收藏:0      [点我收藏+]

标签:成本   segment   框架   target   .com   部分   基础知识   线程   结束   

1.尽量减少请求次数,能抓列表页就不抓详情页,减轻服务器压力,程序员都是混口饭吃不容易。

2.不要只看 Web 网站,还有手机 App 和 H5,这样的反爬虫措施一般比较少。

3.实际应用时候,一般防守方做到根据 IP 限制频次就结束了,除非很核心的数据,不会再进行更多的验证,毕竟成本的问题会考虑到。

4.如果真的对性能要求很高,可以考虑多线程(一些成熟的框架如 Scrapy都已支持),甚至分布式..

https://segmentfault.com/a/1190000005840672(携程技术中心 - 携程酒店研发部研发经理崔广宇 <爬虫与反爬虫> 技术分享

scrapy基础知识之 关于爬虫部分一些建议:

标签:成本   segment   框架   target   .com   部分   基础知识   线程   结束   

原文地址:http://www.cnblogs.com/huwei934/p/6971778.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!