网站爬取-案例一：猫眼电影TOP100

时间：2018-02-10 11:22:30 阅读：208 评论：0 收藏：0 [点我收藏+]

今天有小朋友说想看一下猫眼TOP100的爬取数据，要TOP100的名单，让我给发过去，其实很简单，先来看下目标网站：

建议大家都用谷歌浏览器：

技术分享图片

这是我们要抓取的内容，100个数据，很少

我们看一下页面结构

技术分享图片 100部电影分十个页码，也就是一页10个电影，抓取方式为10页循环抓取

先看下代码：

引入模块：

技术分享图片这次我用REQUEST模块作为抓取工具，以JSON的形式做成文件存储方式

第一步：请求网页并且读取：

技术分享图片这个网站并没有设立反爬虫手段

第二步：解析网页函数：

技术分享图片我这里用的正则表达式

第三步：定义存储函数：’

技术分享图片

第四部：主函数：

技术分享图片请注意主函数里的参数

第5步：执行爬取

技术分享图片

看下结果：

技术分享图片

这个真的很简单

原文地址：https://www.cnblogs.com/woshiruge/p/8438043.html

踩

(0)

评论一句话评论（0）

分享档案

更多>

周排行