梨视频，进程池、线程池爬取

时间：2020-04-08 11:36:05 阅读：65 评论：0 收藏：0 [点我收藏+]

标签：load main ref == proxy section ice ctime write

[TOC]

进程池

import requests, re, time
from multiprocessing.dummy import Pool
import random

IpPool = [{‘http‘: ‘183.147.230.104: 8118‘}, {‘http‘: ‘60.217.64.237: 31923‘},
          {‘http‘: ‘221.193.50.166: 8118‘}]


url = ‘https://www.pearvideo.com/category_loading.jsp?reqType=5&categoryId=9&start=0‘

start = time.time()

video_list=[]

ret = requests.get(url)
reg = ‘<a href="(.*?)" class="vervideo-lilink actplay">‘
video_urls = re.findall(reg, ret.text)
print(video_urls)
for url in video_urls:
    proxy = random.choice(IpPool)
    ret_detail = requests.get(‘https://www.pearvideo.com/‘ + url, proxies=proxy)
    print(proxy)
    reg = ‘srcUrl="(.*?)",vdoUrl=srcUrl‘
    mp4_url = re.findall(reg, ret_detail.text)[0]  # type:str

    video_name = mp4_url.rsplit(‘/‘, 1)[-1]

    dic = {
        ‘v_name‘: video_name,
        ‘v_url‘: mp4_url
    }
    video_list.append(dic)

print(video_list)
def get_video(dic):
    url = dic[‘v_url‘]
    name = dic[‘v_name‘]
    print(f‘开始下载{name}‘)
    video_data = requests.get(url=url)
    print(url)
    with open(name, ‘wb‘) as f:
        for line in video_data.iter_content():
            f.write(line)
        print(f‘{name}下载完成‘)

    end = time.time()
    ctime = end - start
    print(ctime)

pools = Pool(12)
pools.map(get_video, video_list)
pools.close()
pools.join()

线程池

import requests
import re
import random
from concurrent.futures import ThreadPoolExecutor

import time
start = time.time()

pool = ThreadPoolExecutor(12)

IpPool = [{‘http‘: ‘183.147.230.104: 8118‘}, {‘http‘: ‘60.217.64.237: 31923‘},
          {‘http‘: ‘221.193.50.166: 8118‘}]

url = ‘https://www.pearvideo.com/category_loading.jsp?reqType=5&categoryId=9&start=0‘


video_list=[]

ret = requests.get(url)
reg = ‘<a href="(.*?)" class="vervideo-lilink actplay">‘
video_urls = re.findall(reg, ret.text)
print(video_urls)
for url in video_urls:
    proxy = random.choice(IpPool)
    ret_detail = requests.get(‘https://www.pearvideo.com/‘ + url, proxies=proxy)
    print(proxy)
    reg = ‘srcUrl="(.*?)",vdoUrl=srcUrl‘
    mp4_url = re.findall(reg, ret_detail.text)[0]  # type:str

    video_name = mp4_url.rsplit(‘/‘, 1)[-1]

    dic = {
        ‘v_name‘: video_name,
        ‘v_url‘: mp4_url
    }
    video_list.append(dic)

def get_video(dic):
    url = dic[‘v_url‘]
    name = dic[‘v_name‘]
    print(f‘开始下载{name}‘)
    video_data = requests.get(url=url)
    print(url)
    with open(name, ‘wb‘) as f:
        for line in video_data.iter_content():
            f.write(line)
        print(f‘{name}下载完成‘)
        end = time.time()
        ctime = end - start
        print(ctime)

print(video_list)
def main():
    for url in video_list:
        done = pool.submit(get_video, url)


if __name__ == ‘__main__‘:
    main()
    pool.shutdown(wait=True)

梨视频，进程池、线程池爬取

标签：load main ref == proxy section ice ctime write

原文地址：https://www.cnblogs.com/kai-/p/12658461.html

踩

(0)

评论一句话评论（0）

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)

周排行