码迷,mamicode.com
首页 > 编程语言 > 详细

python爬取并下载麦子学院所有视频教程

时间:2016-01-18 20:45:58      阅读:211      评论:0      收藏:0      [点我收藏+]

标签:

一、主要思路

  1. scrapy爬取是有课程地址及名称
  2. 使用multiprocessing进行下载
  3. 就是为了爬点视频,所以是简单的代码堆砌
  4. 想而未实行,进行共享的方式

二、文件说明

技术分享
  1. itemsscray字段
  2. piplines.py存储数据库
  3. setting.py scrapy配置 需要注意的是DEFAULT_REQUEST_HEADERS的设置,需要模拟登录
  4. mz.py是主要爬虫 都是基本的爬虫功能,css+xpath+正则
  5. start_urls = ["http://www.maiziedu.com/course/web/", ]只爬了web的,可根据需要进行,或者全部,
  6. 本想不存储进数据库,直接在mz.py进行下载,但考虑到位会影响scrapy原有的性能,单独进行下载
技术分享
  1. down.py 使用multiprocessing进行下载 原本想着动态监听scrapy在数据库的中的结果,想实现进程的共享,调试多次还出现问题所以直接用Pool.Map()这种比较粗暴的方式,
  2. mz.json现存取进json,但考虑到来回操作json文件,影响效率,所以改用数据库

 

三、结果
  1. 源码 :https://yunpan.cn/crjn7J97xUD8F  访问密码 6219
  2. 视频地址:技术分享https://yunpan.cn/crjXKLGnkpzPk  访问密码 6c15





python爬取并下载麦子学院所有视频教程

标签:

原文地址:http://www.cnblogs.com/yinsolence/p/5140297.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!