学习进度03

时间：2020-02-03 19:21:36 阅读：64 评论：0 收藏：0 [点我收藏+]

标签：back ali init htm family order 一点 user 12px

import re
import requests


def parse_page(url):
    headers = {
        ‘User-Agent‘: ‘Mozilla / 5.0(Windows NT 10.0;WOW64) AppleWebKit / 537.36(KHTML, likeGecko) Chrome / 79.0.3945.130Safari / 537.36‘
    }
    resp = requests.get(url,headers)
    text = resp.text
    # re.DOTALL .也可以匹配换行符
    titles = re.findall(r‘<div\sclass="cont">.*?<b>(.*?)</b>‘, text, re.DOTALL)
    print(titles)

def main():
# url =‘https://www.gushiwen.org/default_1.aspx‘
   for x in range(1, 18):
       url =‘https://www.gushiwen.org/default_%s.aspx‘ % x
       parse_page(url)

if __name__ == ‘__main__‘:
    main()

古诗文网站的爬取

今天学习到了使用正则表达式来爬取网页，感觉xpath比较好用，但是我自己爬取b站《花牌情缘》的评论时发现并不能成功

为什么呢？

因为评论是一点点加载出来的，你往下拉，他才会出现新的，然后会有好多页，翻页也是这样，在网上查了一下评论数据保存在这个请求里面，以json保存的

Request URL:

https://api.bilibili.com/x/v2/reply?callback=jQuery17204184039578913048_1580701507886&jsonp=jsonp&pn=1&type=1&oid=700

但是你点开这个网页是403错误，在网上查了一下，需要访问这个网页https://api.bilibili.com/x/v2/reply?pn=1&type=1&oid=700

点开是一个json数据，今天还学习了python中json对象的解析。

学习进度03

标签：back ali init htm family order 一点 user 12px

原文地址：https://www.cnblogs.com/gonT-iL-evoL-I/p/12256685.html

踩

(0)

评论一句话评论（0）

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)

周排行