利用正则来爬去猫眼电影 =================================== ===================================================== 1 ''' 2 利用正则来爬去猫眼电影 3 1. url: http://maoyan.com/... ...
分类:
编程语言 时间:
2018-12-08 11:19:38
阅读次数:
145
网络爬虫(又被称为网页蜘蛛,网络机器人,在FOAF社区中间,更经常的称为网页追逐者),是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本。另外一些不常使用的名字还有蚂蚁、自动索引、模拟程序或者蠕虫。 ...
分类:
编程语言 时间:
2018-11-30 20:02:59
阅读次数:
162
'''Requests+正则表达式爬取猫眼电影TOP100''''''流程框架:抓去单页内容:利用requests请求目标站点,得到单个网页HTML代码,返回结果。正则表达式分析:根据HTML代码分析得到电影的名称、主演、上映时间、评分、图片链接等信息。保存至文件:通过文件的形式保存结果,每一部电影 ...
分类:
其他好文 时间:
2018-11-29 01:17:50
阅读次数:
277
前言: 学习python3爬虫大概有一周的时间,熟悉了爬虫的一些基本原理和基本库的使用,本次就准备利用requests库和正则表达式来抓取猫眼电影排行TOP100的相关内容。 1、本次目标: 需要爬去出猫眼电影排行TOP100的电影相关信息,包括:名称、图片、演员、时间、评分,排名。提取站点的URL ...
分类:
其他好文 时间:
2018-11-04 22:58:34
阅读次数:
181
Requests+正则表达式爬取猫眼TOP100榜电影信息 MARK:将信息写入文件解决乱码方法,开启进程池秒爬。 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 ...
分类:
其他好文 时间:
2018-10-17 11:05:40
阅读次数:
229
1. 目标: 对猫眼电影前100名的爬取,并将结果以文件的形式保存下来 2. 准备工作: requests库 3. 抓取分析 offset代表偏移量值,分开请求10次,就可以获取前100的电影 4.抓取首页 5.正则提取 6.文件提取 7.代码整合 8.每页爬取 总代码: ...
分类:
其他好文 时间:
2018-10-14 13:55:29
阅读次数:
115
爬取猫眼电影TOP100(http://maoyan.com/board/4?offset=90)1).爬取内容:电影名称,主演,上映时间,图片url地址保存到mariadb数据库中;2).所有的图片保存到本地/mnt/maoyan/电影名.png代码:importreimportpymysqlasmysqlfromurllibimportrequestfromurllib.requestimpo
分类:
编程语言 时间:
2018-10-10 10:37:24
阅读次数:
442
(一)目标站点的分析 首先打开我们的目标网站,发现每一页有十个电影,最下面有分页标志,而分页只改变的是标签后缀,如下: 而后可以在网页按f12打开源代码管理,查看网页每处信息对应的源代码形式,如下图: (二)流程框架 经过简单分析后,我们可以整理一下总的流程分为四步: (三)实战编码 1.我们首先完 ...
分类:
其他好文 时间:
2018-10-02 17:35:37
阅读次数:
228
流程框架: 抓取单页内容:利用requests请求目标站点,得到单个网页HTML代码,返回结果。 正则表达式分析:根据HTML代码分析得到电影和名称、主演、上映时间、评分、图片链接等信息。 开启循环及多线程:对多页内容遍历,开启多线程提高抓取速度。 保存至文件:通过文件的形式将内容结果保存,每一部电 ...
分类:
其他好文 时间:
2018-09-23 11:38:02
阅读次数:
137