码迷,mamicode.com
首页 > 编程语言 > 详细

读取指定页面中的超链接-Python 3.7

时间:2019-11-20 19:26:37      阅读:60      评论:0      收藏:0      [点我收藏+]

标签:链接   gre   urlopen   int   att   name   set   tps   补全   

#!/usr/bin/env python
#coding: utf-8
from bs4 import BeautifulSoup
import urllib
import urllib.request
import sys
from imp import reload
reload(sys)
#sys.setdefaultencoding("utf-8")

# the url of the page
url = ‘https://www.wikipedia.org/‘

def findAllLink(url):
‘‘‘
Get hyperlinks from web pages
‘‘‘
# agreement, domain name
proto, rest = urllib.request.splittype(url)
domain = urllib.request.splithost(rest)[0]

# read the page
html = urllib.request.urlopen(url).read()

# Extract hyperlinks
a = BeautifulSoup(html).findAll(‘a‘)

# filter
alist = [i.attrs[‘href‘] for i in a if i.attrs[‘href‘][0] != ‘j‘]
# 将形如#comment-text的锚点补全成http://www.ruanyifeng.com/blog/2015/05/co.html,将形如/feed.html补全为http://www.ruanyifeng.com/feed.html
alist = map(lambda i: proto + ‘://‘ + domain + i if i[0] == ‘/‘ else url + i if i[0] == ‘#‘ else i, alist)
return alist

if __name__ == ‘__main__‘:
       for i in findAllLink(url):
       print(i)

读取指定页面中的超链接-Python 3.7

标签:链接   gre   urlopen   int   att   name   set   tps   补全   

原文地址:https://www.cnblogs.com/fenmoyu/p/11899791.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!