& 8195;之前在CSDN程序人生公众号上看到了这篇文章 "《邪不压正》评分持续走低,上万条网友评论揭秘,是救救姜文还是救救观众?" ,文中提到了通过抓包猫眼App发现了评论的数据接口:,其中248566属于电影的专属id,offset代表页数,但并未提及如何在猫眼App抓包。经过笔者的摸索,在尝 ...
分类:
移动开发 时间:
2018-08-01 22:34:41
阅读次数:
369
学的是《python3网络爬虫开发实战》里的代码,就改了下正则。 效果(result.txt): ...
分类:
其他好文 时间:
2018-07-16 23:04:06
阅读次数:
160
还是以猫眼电影为例,这次用pyquery库进行爬取 1.简单demo,看看如何使用pyquery提取信息,并将提取到的数据进行组合 2.正式代码 其实就这个例子来说,使用pyquery来提取信息是最简单省事的了,直接使用css选择器就可以把想要的数据拿到 ...
分类:
数据库 时间:
2018-06-27 22:20:35
阅读次数:
279
上一篇通过requests+正则爬取了猫眼电影榜单,这次通过requests+beautifulsoup再爬取一次(其实这个网站更适合使用beautifulsoup库爬取) 1.先分析网页源码 可以看出每部电影信息都包含在一堆<dd>...</dd>标签中,所以第一步可以通过beautifulsou ...
分类:
数据库 时间:
2018-06-26 19:34:18
阅读次数:
242
前面讲了如何通过pymysql操作数据库,这次写一个爬虫来提取信息,并将数据存储到mysql数据库 1.爬取目标 爬取猫眼电影TOP100榜单 要提取的信息包括:电影排名、电影名称、上映时间、分数 2.分析网页HTML源码 可以看到每部电影信息都被包裹在一对<dd>...</dd& ...
分类:
数据库 时间:
2018-06-23 19:01:33
阅读次数:
170
爬去猫眼电影正字热映电影榜单的前五页: 输出结果为: ...
分类:
其他好文 时间:
2018-06-19 13:51:40
阅读次数:
195
目前正在学Python爬虫,正在读崔庆才的《Python3网络爬虫开发实战》,之前学习正则表达式,但是由于太难,最后放弃了(学渣的眼泪。。。。),在这本书上的抓取猫眼电影排行上,后来自学了pyquery,发现用pyquery可以解决这个问题,目前自己试着写了代码 这个是抓取一页的情况的代码(没有图的 ...
分类:
其他好文 时间:
2018-06-16 20:34:19
阅读次数:
278
爬虫项目爬取猫眼电影TOP100电影信息 项目内容来自:https://github.com/Germey/MaoYan/blob/master/spider.py 由于其中需要爬取的包含电影名字、电影海报图片、演员、上映时间等众多信息,正则表达式代码较为复杂 在parse_one_page(htm ...
分类:
编程语言 时间:
2018-05-23 22:11:42
阅读次数:
235