码迷,mamicode.com
首页 > 编程语言 > 详细

这是一个转载,关于python的下载 图片视频

时间:2017-06-23 20:57:30      阅读:193      评论:0      收藏:0      [点我收藏+]

标签:python 爬虫 python2 python3 urllib 资源 下载

目的:再熟悉下python强大的数据处理能力和python2,3的区别

情景:贴吧上的图片,数据结构庞大的xml,某些国外比较火热的资源分享平台,你喜欢的漫画,想看的电影,只要资源不错,python‘都可以帮你实现查找,连接下载。

原理:竟然放不了图片,感觉51CTO这一类的博客,初心是好的,也是慢慢的变成了不好用的东西了,当一个企业成立起来,他的使命就只是挣钱了。可惜了。


原理:你需要分析下目标网站,你需要的网页地址是?一般都在src="",用正则简单去匹配一下就可以了。如果有点复杂,那么就用专业的工具分析下。

Fiddler或者HTTP_WATCH


针对于python的语言,是很多简单的。这里有一个入门小测试。转载的。http://www.cnblogs.com/fnng/p/3576154.html

我也打算转到cnblogs。


内容:这个小测试主要是三个方面:

1.尝试去建立http请求,主要是用到urllib的requests的urlopen

import re
import urllib.request

def getHtml(url):
	page = urllib.request.urlopen(url)
	html = page.read()
	#html = html.decode(‘utf-8‘)
	return html

2,尝试写个正则来匹配一下src或者你需要的链接在哪?

    关于正则,我有话要说 ,可以参考经典书籍<AWK&SED>,然后必须用一个正则测试工具,推荐Regex,好像是个小老虎,一时没找到,在另一个电脑里。

接着转载

import re
import urllib

def getHtml(url):
    page = urllib.urlopen(url)
    html = page.read()
    return html

def getImg(html):
    reg = r‘src="(.+?\.jpg)" pic_ext‘
    imgre = re.compile(reg)
    imglist = re.findall(imgre,html)
    return imglist      
   
html = getHtml("http://tieba.baidu.com/p/2460150866")
print getImg(html)

主要是使用到了   r‘正则‘,这里是有个小问题的,必须要decode一下,也就是html,获取的界面结果,需要html.decode(‘utf-s‘),将string装成unicode

解释:字符串在Python内部的表示是unicode编码,因此,在做编码转换时,通常需要以unicode作为中间编码,即先将其他编码的字符串解码(decode)成unicode


3,还是再建立一个连接,下载第二部的资源,存起来就完了,现在想想,还是云技术好啊,我们只是搬运工,何必要下载到本地。最后转载

def getImg(html):
    reg = r‘src="(.+?\.jpg)" pic_ext‘
    imgre = re.compile(reg)
    imglist = re.findall(imgre,html)
    x = 0
    for imgurl in imglist:
        urllib.urlretrieve(imgurl,‘%s.jpg‘ % x)
        x+=1
     return imglist

基本上就结束了。如果对这有兴趣的,可以自己去搜着学习一下,这是个工具语言,相当高效好用。

至于他的python环境,不管是window还是linux都是比较容易搞定的。

如果你想着进一步,可以学着用docker去撞他的环境。python与我同岁。

我还是变成原创吧,以上部分代码来至于大人不华,君子务实。 独立博客:HTTP://WWW.TESTPUB.CN

(网上有关于各种资源的python,比如tum..b..l...r..)


本文出自 “一站式解决方案” 博客,请务必保留此出处http://10725691.blog.51cto.com/10715691/1941407

这是一个转载,关于python的下载 图片视频

标签:python 爬虫 python2 python3 urllib 资源 下载

原文地址:http://10725691.blog.51cto.com/10715691/1941407

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!