码迷,mamicode.com
首页 > 编程语言 > 详细

Python爬虫 爬取豆瓣读书

时间:2015-05-21 10:58:26      阅读:327      评论:0      收藏:0      [点我收藏+]

标签:爬虫   python   豆瓣   github   图书   

最近用Python写了个豆瓣读书的爬虫玩,方便搜罗各种美美书,分享给大家



实现功能:

1 可以爬下豆瓣读书标签下的所有图书

2 按评分排名依次存储

3 存储到Excel中,可方便大家筛选搜罗,比如筛选评价人数>1000的高分书籍;可依据不同的主题存储到Excel不同的Sheet

4 采用User Agent伪装为浏览器进行爬取,并加入随机延时来更好的模仿浏览器行为,避免爬虫被封



试着爬了七八万本书,存在了book_list.xlsx中,结果截图如下:

技术分享



详细代码和爬取的一些结果可移步到GitHub: https://github.com/lanbing510/DouBanSpider



Python爬虫 爬取豆瓣读书

标签:爬虫   python   豆瓣   github   图书   

原文地址:http://blog.csdn.net/lanbing510/article/details/45887075

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!