爬取动态页面2

时间：2019-03-22 00:44:33 阅读：116 评论：0 收藏：0 [点我收藏+]

标签：ike sts style 详情 alt img ima 网站 url

动态页面的爬取思路：

　　1. ajax -----数据放在 json 中，在里面是否有url

　　2. js 数据通过搜索原页面上的数据关键字：ctrl + f , 全局搜索关键字

例子：

开始网站 url = ‘https://www.xuexi.cn/‘

爬取的页面1:

url 1= ‘https://www.xuexi.cn/f997e76a890b0e5a053c57b19f468436/018d244441062d8916dd472a4c6a0a0b.html‘

需求：爬取url1 所有新闻的详情页面

分析思路：图示

　　用 js 数据动态生成的思路：通过搜索原页面上的数据关键字：ctrl + f , 全局搜索关键字

技术图片

爬取的页面2:

url 2= ‘https://www.xuexi.cn/261c9a142ef8e6375ed554815a26d585/f2d8ff735982530b7a8c9bb90fa99f68.html‘

需求：爬取url2 所有新闻的详情页面

分析思路：

　　先按思路，js 动态生成数据的思路，找，没找到在按ajax 动态生成数据的思路。

　　用 ajax动态生成的思路： ajax -----数据放在 json 中，在里面是否有数据。（此处为ajax）

图示:

技术图片

代码：

import requests

分析之后得到获取数据的url地址： url1 文需求1 的数据地址，url2 为需求2 的数据获取地址。
url1 = ‘https://www.xuexi.cn/f997e76a890b0e5a053c57b19f468436/data018d244441062d8916dd472a4c6a0a0b.js‘
url2 = ‘https://www.xuexi.cn/lgdata/261c9a142ef8e6375ed554815a26d585/f2d8ff735982530b7a8c9bb90fa99f68.json‘


headers={
    ‘user-agent‘:‘Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.67 Safari/537.36‘
}

res1 = requests.get(url=url2,headers=headers)

res2 = requests.get(url=url2,headers=headers) 

print(res1.content.decode())

print(res2.content.decode())

爬取动态页面2

标签：ike sts style 详情 alt img ima 网站 url

原文地址：https://www.cnblogs.com/knighterrant/p/10575523.html

踩

(0)

评论一句话评论（0）

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)

周排行