标签:style http color io os ar for 文件 数据
import requests url="http://www.cricode.com" r=requests.get(url)上面这三行爬虫程序,就如下面这三行情诗一般,很干脆利落。
import requests #用来爬取网页 from bs4 import BeautifulSoup #用来解析网页 seds = ["http://www.hao123.com", #我们的种子 "http://www.csdn.net", "http://www.cricode.com"] sum = 0 #我们设定终止条件为:爬取到100000个页面时,就不玩了 while sum < 10000 : if sum < len(seds): r = requests.get(seds[sum]) sum = sum + 1 do_save_action(r) soup = BeautifulSoup(r.content) urls = soup.find_all("href",.....) //解析网页 for url in urls: seds.append(url) else: break3.现在来找茬
标签:style http color io os ar for 文件 数据
原文地址:http://my.oschina.net/handsomeliu/blog/323562