BeautifulSoup爬取博客首页摘要

时间：2018-07-29 18:50:33 阅读：140 评论：0 收藏：0 [点我收藏+]

标签：coding 爬取 blog war utf-8 for ble 内容 content

#coding:utf-8
from bs4 import BeautifulSoup
import requests
import urllib3
#禁用安全请求警告
urllib3.disable_warnings()

#===============以下是爬取博客园首页摘要====================
r=requests.get("https://www.cnblogs.com/xiaohuhu/")
#请求首页后获取整个html界面
blog=r.content
#print(blog)
#用html.parser解析html
soup=BeautifulSoup(blog,"html.parser")

#获取所有标题日期，class属性为dayTitle，返回列表
times=soup.find_all(class_=‘dayTitle‘)

#获取所有摘要标题,class属性为postTitle
titles=soup.find_all(class_="postTitle")

#获取所有摘要内容，class属性为postCon
descs = soup.find_all(class_="postCon")

for i,j,k in zip(times,titles,descs):
   print(i.a.string) #循环打印a标签的文本
   print(j.a.string)
   print(k.div.contents[0]) #标签div的.contents属性可以将标签的子节点以列表的方式输出，取第一个

#===============以下是爬取糗事百科段子====================

r = requests.get("https://www.qiushibaike.com/", verify=False)
qiubai = r.content
soup = BeautifulSoup(qiubai, "html.parser")
duanzi = soup.find_all(class_="content")

for i in duanzi:
    # tag的 .contents 属性可以将tag的子节点以列表的方式输出
    duan = i.span.contents[0] # 取第一个
    print(duan)

BeautifulSoup爬取博客首页摘要

标签：coding 爬取 blog war utf-8 for ble 内容 content

原文地址：https://www.cnblogs.com/xiaohuhu/p/9386092.html

踩

(0)

评论一句话评论（0）

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)

周排行