爬虫通用框架

时间：2019-07-07 14:17:30 阅读：75 评论：0 收藏：0 [点我收藏+]

标签：turn sub timeout comm cep main div http html_

 1 爬虫通用框架
 2 import requests
 3 
 4 def get_html_text(url):
 5     try:
 6         r =requests.get(url,timeout=20)
 7 
 8         r.raise_for_status()
 9 
10         r.encoding = r.apparent_encoding
11 
12         return r.text
13 
14     except:
15         return "产生异常"
16 
17 if __name__ == ‘__main__‘:
18     url ="http://www.baidu.com"
19     print(get_html_text(url))
20 
21 
22 实例
23 import requests
24 from bs4 import BeautifulSoup
25 
26 def getHTMLText(url):
27     try:
28         r = requests.get(url,timeout=20) #设置超时
29         r.raise_for_status()   # 判断请求是否成功
30         r.encoding = r.apparent_encoding  # 设置编码
31         return r.text   # 返回获取内容
32     except: #异常处理
33         return "产生异常"
34 
35 if __name__ == ‘__main__‘:
36     url = "https://book.douban.com/subject/1084336/comments/"  # 需要请求的网址
37     # print(getHTMLText(url)) #调用函数
38     requests = getHTMLText(url)  # 获取文本内容
39     soup = BeautifulSoup(requests,"html.parser")  # 文本解析
40     reasult = soup.find_all("div",class_="comment") # 文本处理
41     for i in reasult :
42         print(i.p.text)  # 循坏打印文本

爬虫通用框架

标签：turn sub timeout comm cep main div http html_

原文地址：https://www.cnblogs.com/mai1994/p/11146063.html

踩

(0)

评论一句话评论（0）

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)

周排行