码迷,mamicode.com
首页 > 编程语言 > 详细

python来获取网页中的所有链接

时间:2020-05-07 23:09:21      阅读:90      评论:0      收藏:0      [点我收藏+]

标签:selenium   none   beautiful   txt   网络   port   hao123   请求   www   

注意:使用前要装selenium第三方的库才可以使用

版本:python3

from bs4 import BeautifulSoup
from urllib import request

# 要请求的网络地址
url = https://www.hao123.com/

# 请求网络地址得到html网页代码
html = request.urlopen(url)

# 整理代码
soup = BeautifulSoup(html, html.parser)

# 找出所有的 a 标签, 因为所有的链接都在 a 标签内
data = soup.find_all(a)

# 打开文件对象做持久化操作
file = open(D:/link.txt, mode=w, encoding=utf-8)

# 遍历所有的 a 标签, 获取它们的 href 属性的值和它们的 text
for item in data:
    if item.string is not None and item[href] != javascript:; and item[href] != #:
        print(item.string, item.get(href))
        file.write(str.__add__(item.string,  ))
        file.write(str.__add__(item[href], \n))

file.close()

 

python来获取网页中的所有链接

标签:selenium   none   beautiful   txt   网络   port   hao123   请求   www   

原文地址:https://www.cnblogs.com/li1234567980/p/12846077.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!