码迷,mamicode.com
首页 > 编程语言 > 详细

Python爬虫为何可以这么叼?爬取百度云盘资源!并保存到自己云盘

时间:2018-06-11 17:04:45      阅读:590      评论:0      收藏:0      [点我收藏+]

标签:除了   源码   双击   请求头   inf   不同   技术分享   直接   sha   

技术分享图片

 

技术分享图片

 

点击它,再点击右边的【Cookies】就可以看到请求头里的 cookie 情况。

cookie分析

技术分享图片

 

技术分享图片

 

除了上面说到的两个 cookie ,其他的请求头参数可以参照手动转存时抓包的请求头。这两个 cookie 预留出来做参数的原因是 cookie 都是有生存周期的,过期了需要更新,不同的账号登录也有不同的 cookie 。

参数分析

接下来分析参数,点击【Cookies】右边的【Params】查看参数情况。如下:

技术分享图片

 

技术分享图片

 

技术分享图片

 

爬取shareid、from、filelist,发送请求转存到网盘

技术分享图片

 

以上面这个资源链接为例(随时可能被河蟹,但是没关系,其他链接的结构也是一样的),我们先用浏览器手动访问,F12 打开控制台先分析一下源码,看看我们要的资源信息在什么地方。控制台有搜索功能,直接搜 “shareid”。

定位到4个shareid,前三个与该资源无关,是其他分享资源,最后一个定位到该 html 文件的最后一个标签块里。双击后可以看到格式化后的 js 代码,可以发现我们要的信息全都在里边。如下节选:

技术分享图片

 

技术分享图片

 

可以看到这两行

技术分享图片

 

技术分享图片

 

yunData.FILEINFO 结构如下,你可以将它复制粘贴到json.cn里,可以看得更清晰。

技术分享图片

 

清楚了这三个参数的位置,我们就可以用正则表达式进行提取了。代码如下:

技术分享图片

 

技术分享图片

 

爬取到了这三个参数,就可以调用之前的 transfer 方法进行转存了。.

进群:125240963即可获取源码下载地址哦!

技术分享图片

Python爬虫为何可以这么叼?爬取百度云盘资源!并保存到自己云盘

标签:除了   源码   双击   请求头   inf   不同   技术分享   直接   sha   

原文地址:https://www.cnblogs.com/PY2578/p/9167407.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!