标签:convert dal ons 轻松 div books pytho 代码 需要
response = requests.get("url") #生成一个response对象
response.encoding = response.apparent_encoding #设置编码格式
print("状态码:"+ str( response.status_code ) ) #打印状态码
html = response.text
print(response.text)#输出爬取的信息
msg = re.findall(‘<div class="list_books">(.*?)</div>‘,html,re.S)
# 其中`re.S`是将此`div`内的所有内容包括换行截取出来,如果只需要截取一行,就不需要加这个
def remove_html_tag(content):
return re.sub(r‘</?\w+[^>]*>‘, ‘‘, content)
def convert_to_cn(text):
text = re.sub(r‘&#x([A-F0-9]{2});‘, r‘�\1;‘, text)
return text.replace(‘&#x‘, r‘\u‘).replace(‘;‘, ‘‘).encode(‘utf-8‘).decode(‘unicode-escape‘)
msg
进行遍历,变成我需要的数据for item in msg:
s = convert_to_cn(remove_html_tag(item))
str = str + s
print(s)
file = open(‘D:/Python/ab.txt‘,‘w‘)
file.write(str)
标签:convert dal ons 轻松 div books pytho 代码 需要
原文地址:https://www.cnblogs.com/Listen-rain-to-sleep/p/14599112.html