码迷,mamicode.com
首页 > 编程语言 > 详细

基于Python实现的ComicReaper漫画自动爬取脚本

时间:2019-11-10 09:34:25      阅读:114      评论:0      收藏:0      [点我收藏+]

标签:import   转义   百度   为什么   http   href   表达式   开发者   request对象   

讲真的, 手机看漫画翻页总是会手残碰到页面上的广告好吧...

要是能只需要指定一本漫画的主页URL就能给我返回整本漫画就好了...

还是使用Python来实现, 取个名字...就叫 ComicReaper(漫画收割者) 吧!

 

首先我们对我们接下来要做的事情做一个具体流程分析

我们要获取当前漫画所有章节的标题与URL(标题用于后期存储时文件夹的命名, URL用于跳转到当前章节的开始页面)并且存储在列表中

技术图片

将会使用到Python的两个库, reurllib

1 import re         # 导入正则表达式
2 import urllib.request   # 导入 urllib.request

 

对在浏览器中按下 [F12] 键打开开发者工具来对漫画的章节页面进行分析

技术图片

我们可以看到页面中有很多章节, 也就是章节跳转链接, 每个链接的<a>标签中正好具有我们需要的标题和URL, 分别是<a>标签的 title 属性与 href 属性, 我们将使用字典来存储它

先不慌着前进, 考虑到整个HTML中有非常多的链接, 那么也就意味着页面中具有大量的<a>标签, 如果我们只是单纯地从HTML中过滤出<a>标签, 这样我们会得到大量我们并不需要的<a>标签, 这是不明智的, 我们必须只过滤出章节跳转链接的<a>标签, 仔细观察, 发现章节跳转链接的<a>标签们都具有一个特点, 那就是它们都具有 class 属性并且属性值为 "fixed-a-es" , 这就找到了一个可以定位章节<a>标签的依据, 把这一点加入到我们的正则表达式的匹配规则中去

现在就可以定义一个正则表达式匹配字符串了(什么是正则表达式?)(在线正则表达式练习) :

pat = r<a class="fixed-a-es" href="(.*?)" title="(.*?)"‘

为什么要这么写 :

  1. 在Python中, 在字符串常量的开头加一个 ‘r‘ 表示本字符串中的 ‘\‘ 字符将不会用来作转义字符使用, 保留了它原本的含义, 也就是反斜杠字符
  2. 在正则表达式中, ‘.‘ 字符用于匹配任何字符(当匹配时具有 ‘re.S‘ 标志时此话成立, 否则只能匹配任意但除了 ‘\n‘ 以外的字符)
  3. 在正则表达式中, ‘*‘ 字符用于描述它左边的匹配字符的出现次数为0次或若干次
  4. 在正则表达式中, ‘(.*?)‘ 的组合用来表示一个贪婪匹配(并且会被捕捉到), 至于什么是贪婪匹配, 可以看这位博主的这篇文章

使用这个正则表达式, 就可以匹配到 title 属性与 href 属性的属性值中的双引号里面的内容了

 

 

 

具体实现是 chapterIndexReaper 函数, 主要用来"收割"当前漫画的所有章节并存储为字典列表

代码如下 :

 1 #获取一本漫画的所有章节的目录
 2 def chapterIndexReaper(url_host, header):
 3     # 定义一个临时字典, 用于临时存储一个章节的标题与url
 4     dic_temp = {
 5         Title : ‘‘,
 6         Url : ‘‘
 7         }
 8     # 章节字典列表, 存储当前漫画的所有章节字典
 9     set_dic = []
10     # 构建Request对象
11     req = urllib.request.Request(url = url_host, headers = header)
12     # 读取所请求的req并用utf-8编码来进行解码, 所得到的的字符串赋值给html
13     html = urllib.request.urlopen(req).read().decode(utf-8)
14     # 爬取漫画章节标题与url的正则表达式
15     pat = r<a class="fixed-a-es" href="(.*?)" title="(.*?)"
16     # 使用pat在html中进行进行匹配(re.S参数是为了让"."除了能够匹配本身规定的字符,
17     # 另外也能匹配"\n"), 返回一个结果列表res
18     res = re.findall(pat, html, re.S)
19     for i in res:
20         dic_temp[Title] = i[1]
21         dic_temp[Url] = url_head + i[0]
22         # 向当前的章节字典列表的后面追加新的章节, 注意, 此处要使用浅拷贝
23         # (因为dic_temp是一个临时变量, 需要创建它的副本并追加到set_dic中去,
24         # 否则当dic_temp刷新时set_dic中的元素会相应发生改变)
25         set_dic.append(dic_temp.copy())
26     return set_dic

 

 

 

基于Python实现的ComicReaper漫画自动爬取脚本

标签:import   转义   百度   为什么   http   href   表达式   开发者   request对象   

原文地址:https://www.cnblogs.com/Laplacedoge/p/11828622.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!