码迷,mamicode.com
首页 > Web开发 > 详细

网站爬取-案例一:猫眼电影TOP100

时间:2018-02-10 11:22:30      阅读:208      评论:0      收藏:0      [点我收藏+]

标签:注意   alt   src   结构   gpo   代码   inf   循环   post   

今天有小朋友说想看一下猫眼TOP100的爬取数据,要TOP100的名单,让我给发过去,其实很简单,先来看下目标网站:

建议大家都用谷歌浏览器:

技术分享图片

这是我们要抓取的内容,100个数据,很少

我们看一下页面结构

技术分享图片100部电影分十个页码,也就是一页10个电影,抓取方式为10页循环抓取

先看下代码:

引入模块:

技术分享图片 这次我用REQUEST模块作为抓取工具,以JSON的形式做成文件存储方式

 

第一步:请求网页并且读取:

技术分享图片   这个网站并没有设立反爬虫手段

第二步:解析网页函数:

技术分享图片我这里用的正则表达式

第三步:定义存储函数:’

技术分享图片

第四部:主函数:

技术分享图片   请注意主函数里的参数

第5步:执行爬取

技术分享图片

 

 看下结果:

技术分享图片

这个真的很简单

网站爬取-案例一:猫眼电影TOP100

标签:注意   alt   src   结构   gpo   代码   inf   循环   post   

原文地址:https://www.cnblogs.com/woshiruge/p/8438043.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!