Python3正则去掉HTML标签

时间：2020-02-14 18:58:56 阅读：116 评论：0 收藏：0 [点我收藏+]

标签：htm python3 print int result ret bsp try 正则

Python3正则去掉HTML标签

1.引用一段代码

import re
 
html = ‘<pre class="line mt-10 q-content" accuse="qContent">目的是通过第一次soup.find按class粗略筛选并通过soup.find_all筛选出列表中的a标签并读入href和title属性<br><br>但是由于目标链接可能有图片链接,而这是我不想要的.请问如何去除?<br></pre>‘
 
reg = re.compile(‘<[^>]*>‘)
 
print(reg.sub(‘‘,html))

2.重点

reg = re.compile(‘<[^>]*>‘)
 
print(reg.sub(‘‘,html))

3.实例

开始

import requests
import re
from bs4 import BeautifulSoup
retxt=open(‘test.log‘,‘r‘)
for x in range(250,999):
    #rurl=rurl.strip(‘\n‘)
    url=‘http://ananas.mooc1.mti100.com/tologin?fid={0}‘.format(x)
    #print(url)
    try:

        response=requests.get(url,timeout=1).text
        #print(response)
        soup=BeautifulSoup(response,features="lxml")
        result=soup.find_all(‘span‘,attrs={‘class‘:‘l_schoolName2‘})
        print(‘学校：{0}‘.format(result))
    except requests.exceptions.InvalidURL:
        pass
    except requests.exceptions.ConnectionError:
        pass
    except requests.exceptions.ReadTimeout:
        pass

输出

学校：[<span class="l_schoolName2" id="schoolName2">
                                杭州师范大学
                        </span>]
学校：[<span class="l_schoolName2" id="schoolName2">

去除标签之后

import requests
import re
from bs4 import BeautifulSoup
#retxt=open(‘test.log‘,‘r‘)
for x in range(250,999):
    #rurl=rurl.strip(‘\n‘)
    url=‘http://ananas.mooc1.mti100.com/tologin?fid={0}‘.format(x)
    #print(url)
    try:

        response=requests.get(url,timeout=1).text
        #print(response)
        soup=BeautifulSoup(response,features="lxml")
        result=soup.find_all(‘span‘,attrs={‘class‘:‘l_schoolName2‘})
        reg=re.compile(‘<[^>]*>‘,re.S)
        print(‘学校：{0}‘.format(reg.sub(‘‘,str(result))))
    except requests.exceptions.InvalidURL:
        pass
    except requests.exceptions.ConnectionError:
        pass
    except requests.exceptions.ReadTimeout:
        pass

输出

学校：[]
学校：[]
学校：[
                                上海电子信息职业技术学院
                        ]
学校：[]
学校：[
                                超星大学

Python3正则去掉HTML标签

标签：htm python3 print int result ret bsp try 正则

原文地址：https://www.cnblogs.com/8gman/p/12308178.html

踩

(0)

评论一句话评论（0）

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)

周排行