标签:pre os.path 技术分享 play 代理 .com hid 学习 pat
爬虫,笔记应该怎么写呢?
这就是一个标准的样式,r=requests.request(get,params,等参数),参数有的是headers,是user_agent, 是用户代理,默认这个是python requests,但有些网站不支持,比如亚马逊。所以得加用户代理参数,(可以换成,就谷歌浏览器打开使用者界面,就有。 还下载了一个插件 user_agent switcher ,想改什么样的都可以。
1 import requests 2 import os 3 root = ‘D://pics//‘ 4 url=‘http://www.nationalgeographic.com.cn/photography/photo_of_the_day/4309.html‘ 5 path = root + url.split(‘/‘)[-1] 6 try: 7 if not os.path.exists(root): 8 os.mkdir(root) 9 if not os.path.exists(path): 10 r=requests.get(url) 11 with open(path,‘wb‘) as f: 12 f.write(r.content) 13 f.close() 14 print (‘文件保存成功‘) 15 else: 16 print(‘文件已经存在‘) 17 except: 18 print(‘爬取失败‘)
这个有些我还是没看懂,也没爬出来
标签:pre os.path 技术分享 play 代理 .com hid 学习 pat
原文地址:http://www.cnblogs.com/fanxiangqi/p/7291874.html