码迷,mamicode.com
首页 > 其他好文 > 详细

医学教育网爬虫程序(直播)

时间:2014-12-19 00:48:27      阅读:242      评论:0      收藏:0      [点我收藏+]

标签:http   os   java   on   文件   数据   ad   as   tt   

12-18

今晚接到老姐的电话,说她已在“医学教育网”订购了不少视频,要我帮她将所有的视频都下载下来。
我看了一下,里面有24门科目,每门科目有40多节。要我手动一个一个下,还不如让我去死。
这种重复的事情还是让程序来做吧!这里开一篇博客直播编写的过程。

被爬网址:http://www.med66.com/

前几天我刚做完一个Qihuiwang的爬虫软件。这次我评估了一下,这次要做的视频下载爬虫程序比上次又有新的挑战:

(1)要处理登陆的过程,上一个不需要登陆就可以直接爬。这次必须要登陆才行。涉及到post数据表的过程

(2)要识别JavaScript程序。我看一下,在我获取网页的那个按钮上写的是 onclick="goDownload(‘700914‘, ‘ ‘)。这个要转换进行转换成url地址

(3)下载需要记载哪些文件已经下载了,以免每次启动程序都从头开始下载。这是不合理的。

(4)下载的文件要以课程进行目录组织。

网站路径如下:

登陆页面 -(登陆)-> 学员课程页面 -(进入课程)-> 目录页面 -(下载中心)-> 下载页面 --> 小节视频

好,明天开搞,尽情关注!


医学教育网爬虫程序(直播)

标签:http   os   java   on   文件   数据   ad   as   tt   

原文地址:http://my.oschina.net/hevakelcj/blog/357852

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!