【Python】爬虫下载视频

时间：2020-07-15 01:11:50 阅读：87 评论：0 收藏：0 [点我收藏+]

标签：pcs requests 字符点击解析 order 直接利用 content

Python爬虫下载视频

前言

这两天我一时兴起想学习 PS ，于是去我的软件宝库中翻出陈年已久的 PhotoshopCS6 安装，结果发现很真流畅诶！

然后去搜索学习视频，网上的视频大多浮躁，收费，突然想到了我入门编程时学习的网站， 我要自学网 ，寻找当时非常喜欢的易语言编程视频，很可惜，没有了。而且发现网站似乎不那么好用了QAQ。

找啊找，找啊找，找到了一个同类型，界面很古老的学习网站， 51视频学院（禁不住好奇，似乎很多那个时候的网站都喜欢51开头，比如吾爱论坛，51巅峰阁...），发现上面的ps视频还可以，但是我家的网速是不是老卡，所以想一下子都下载完，然后就慢慢本地看啦！不再受网络的影响。 想到这种事情，就立马想到了Python。

Python搞起！

分析

寻找视频地址

右键网页点击检查，先刷新一下网页，然后点击网络选项卡。

这个网站属于比较老啦，哈哈，我这样的爬虫小白白都能爬，直接点击媒体，我们就能发现视频的请求地址啦，也就是下载地址。啊哈，果不其然，复制链接后打开就可以下载视频了！

获取视频地址

这就是我们寻找到的视频地址啦，但是怎么知道其他视频的地址呢？注意看红色方框的内容 技术图片

这个时候，让我们回到这个课程的目录页看看

技术图片欸欸欸？是不是看到了点东西？没错，相信眼光敏锐的你已经看到啦，视频地址的后面的1-1就是课程的章节序号啦！

那我们去试几个，发现也是可行的！ 技术图片所以我们从目录网页上获取那个章节序号就好啦，顺便把后面的文字也获取了，当成文件名。不然都不知道视频的内容是什么。

总而言之，流程大致为从目录获取章节序号->下载视频->保存到本地。

写代码！

获取章节序号及内容

这里用到了XPath，不会的点我看看, 很简单的。

代码：

import requests
from lxml import etree

list_url = "http://www.51shiping.com/list-657-1.html"
headers = {"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/79.0.3945.88 Safari/537.36"}
response = requests.get(list_url,headers=headers)
text = response.text
# 解析
html = etree.HTML(text)
titles = html.xpath("//div[@align=‘left‘]/a/text()")
for title in titles:
    print(title)

结果：

技术图片

完美！第一步大功告成

但是，在编写下面是发现一个隐藏的坑点，那就是 空格是‘\ax0‘，你输出titles就知道我说的什么意思了 ，下图是titles数组实际存的内容：

技术图片

所以下面分割字符串时候要以\ax0分割。

试下载一页的视频

import requests
from lxml import etree

list_url = "http://www.51shiping.com/list-657-1.html"
v_url = "http://www.51shiping.com/uploadfiles/jiaochen/pscs7/mp9/" # 视频地址，用于拼接
headers = {"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/79.0.3945.88 Safari/537.36"}
response = requests.get(list_url,headers=headers)
text = response.text
# 解析
html = etree.HTML(text)
titles = html.xpath("//div[@align=‘left‘]/a/text()")
# 下载
for title in titles:
    #unicodedata.normalize(‘NFKC‘, titles[i]) # 去掉\xa0这样的空白字符
    file_dir = ‘E:/PSVideo/{}.mp4‘.format(title) # 保存的路径和文件名
    order = title.split(‘\xa0‘)[0] # 每节的编号
    video_url = v_url+order.split(‘.‘)[0]+‘-‘+order.split(‘.‘)[1]+‘.mp4‘ # 拼接视频下载地址
    print(title+‘正在下载中...请耐心等待‘);
    # 下载视频
    with open(file_dir,‘wb‘) as f:
        f.write(requests.get(video_url,headers=headers).content)
        f.flush()
        print(video_url)
        print(file_dir+‘  已经下载成功!‘);

结果：

技术图片

我这里网速可能还是有点慢，（同时我也怀疑是它的服务器太老啊哈哈）。

下载所有页的视频

import requests
from lxml import etree

def getVideo(n):
    # 访问目录网页,n为目录的页数
    list_url = "http://www.51shiping.com/list-657-{}.html".format(n)    
    v_url = "http://www.51shiping.com/uploadfiles/jiaochen/pscs7/mp9/" # 视频地址，用于拼接
    headers = {"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/79.0.3945.88 Safari/537.36"}
    response = requests.get(list_url,headers=headers)
    text = response.text
    # 解析
    html = etree.HTML(text)
    titles = html.xpath("//div[@align=‘left‘]/a/text()")
    # 下载
    for title in titles:
        #unicodedata.normalize(‘NFKC‘, titles[i]) # 去掉\xa0这样的空白字符
        file_dir = ‘E:/PSVideo/{}.mp4‘.format(title) # 保存的路径和文件名
        order = title.split(‘\xa0‘)[0] # 每节的编号
        video_url = v_url+order.split(‘.‘)[0]+‘-‘+order.split(‘.‘)[1]+‘.mp4‘ # 拼接视频下载地址
        print(title+‘正在下载中...请耐心等待‘);
        # 下载视频
        with open(file_dir,‘wb‘) as f:
            f.write(requests.get(video_url,headers=headers).content)
            f.flush()
            print(video_url)
            print(file_dir+‘  已经下载成功!‘);

if __name__ == "__main__":
    for n in range(1,7):
        getVideo(1)

这个结果我就不再演示啦，（网速慢的我）

总结

该项目利用了requests+XPath知识实现，不是很难，我是一个初学爬虫的小白，都能实现，更何况你呢~

如果能给你正在写的项目一点启发，那更是好啦！哈哈，如果觉得还可以，记得给我点个赞哦~你的赞就是对我最大的鼓励！

技术图片

【Python】爬虫下载视频

标签：pcs requests 字符点击解析 order 直接利用 content

原文地址：https://www.cnblogs.com/AllenMi/p/13303105.html

踩

(0)

评论一句话评论（0）

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)

周排行