码迷,mamicode.com
首页 > 编程语言 > 详细

Python实现抓取页面上链接

时间:2015-08-30 09:57:54      阅读:166      评论:0      收藏:0      [点我收藏+]

标签:

方法一: 
# coding:utf-8
import re
import requests
# 获取网页内容
r = requests.get(http://www.163.com)
data = r.text
# 利用正则查找所有连接
link_list =re.findall(r"(?<=href=\").+?(?=\")|(?<=href=\‘).+?(?=\‘)" ,data)
for url in link_list:
    print url
 
方法二:
 
import urllib2
import re
#connect to a URL
website = urllib2.urlopen(url)
#read html code
html = website.read()
#use re.findall to get all the links
links = re.findall("((http|ftp)s?://.*?)", html)
for url in links:
    print url 
 

Python实现抓取页面上链接

标签:

原文地址:http://www.cnblogs.com/shellr00t/p/4770336.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!