码迷,mamicode.com
首页 > 编程语言 > 详细

python爬虫:爬取百度云盘资料,保存下载地址、链接标题、链接详情

时间:2016-06-14 19:13:41      阅读:418      评论:0      收藏:0      [点我收藏+]

标签:

在网上看到的教程,但是我嫌弃那个教程写的乱(虽然最后显示我也没高明多少,哈哈),就随手写了一个

主要是嫌弃盘搜那些恶心的广告,这样直接下载下来,眼睛清爽多了。

用pyinstall 打包成EXE文件,就可以安安静静的下载东西了。。。。

 #refer:http://upvup.com/html/python/2015-12-13/21.html

#!/usr/bin/python
# -*- encoding:utf-8 -*-

import requests
from bs4 import BeautifulSoup
import sys
reload(sys)
sys.setdefaultencoding(‘utf-8‘)

def yunpan_search(key):
url=‘http://www.wangpansou.cn/s.php?q=‘+key
html=requests.get(url)
soup=BeautifulSoup(html.text,"lxml")
url_get=soup.find_all(‘a‘,{‘class‘:‘cse-search-result_content_item_top_a‘})
info_get=soup.find_all(‘div‘,{‘class‘:‘cse-search-result_content_item_mid‘})
f = open(‘baidu_source.txt‘,‘w‘)
for i in range(len(url_get)):
href=url_get[i][‘href‘]
title=‘‘
for c in url_get[i].children:
title+=c.string.strip()

information=‘‘
for info in info_get[i].children:
information+=info.string.strip().replace(\n‘,‘‘)

print str(i+1)+‘_________________________________________________________________________________________________‘
print 下载地址--‘+href+\n‘+链接标题--‘+title+\n‘+链接详情--‘+information+\n\n
f.write(str(i+1)+‘. _____________________________________________________________________\n‘)
f.write(下载地址--‘+href+\n‘+链接标题--‘+title+\n‘+链接详情--‘+information+\n\n‘)
f.close()


if __name__==‘__main__‘:
key=raw_input(‘please input what you want to look for:‘)
yunpan_search(key)
print(‘finish‘)

 

python爬虫:爬取百度云盘资料,保存下载地址、链接标题、链接详情

标签:

原文地址:http://www.cnblogs.com/miranda-tang/p/5584825.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!