js反爬：请开启JavaScript并刷新该页

时间：2020-02-20 09:22:55 阅读：1174 评论：0 收藏：0 [点我收藏+]

标签：代码格式化栏目网站 asc page enc 图片 ext 重试

中国人民银行网站中的这个栏目为例：http://www.pbc.gov.cn/zhengcehuobisi/125207/125217/125925/17105/index1.html

如果直接用request.get(url)，就会得到下图的JavaScript并刷新该页，跟着一堆乱七八糟代码。

技术图片

简单来说，就是这个网页用了js设置cookie然后重定向到另一个网页，所以只是get这个url是不行的。

同理，如果清除cookie，在浏览器中f12，然后按f1禁用js

技术图片

刷新页面，就会出现下图乱码，其实就是之前跑代码得到的 “请开启JavaScript并刷新该页” 提示。

技术图片

因此，要爬取这个网站的关键问题有两个，一个是用js重定向，一个是保存cookie。

先看看返回的网页的js代码。

技术图片

这就很乱了，随便用个js代码格式化网站，比如 https://tool.oschina.net/codeformat/js/

这样就可以比较清晰的看到js代码。

一顿分析之后，实现抓取的过程如下：

先get之前能得到的带有js的html。

将其中的js代码正则提取出来。

将里面的atob替换为window["atob"]，增加window对象，函数getURL()返回window["location"]，即跳转的链接尾缀。

将这个修改后js代码执行，得到尾缀，与原URL链接，得到重定向的URL。

还有就是cookie问题，直接用requests的session处理就好。

def getPage(URL):
    sess = requests.session()
    jsPage = sess.get(URL).text
    js = re.findall(r‘<script type="text/javascript">([\w\W]*)</script>‘, jsPage)[0]
    js = re.sub(r‘atob\(‘, ‘window["atob"](‘, js)
    js2 = ‘function getURL(){ var window = {};‘ + js + ‘return window["location"];}‘
    ctx = execjs.compile(js2)
    tail = ctx.call(‘getURL‘)
    URL2 = urljoin(URL, tail)
    page = sess.get(URL2)
    page.encoding = ‘UTF-8‘
    return page

最后，在连续抓取页面时有时会报错，加了一两秒延迟就好了。还是会偶尔报错，用异常抛出让它重试即可。

js反爬：请开启JavaScript并刷新该页

标签：代码格式化栏目网站 asc page enc 图片 ext 重试

原文地址：https://www.cnblogs.com/sumuyi/p/12334154.html

踩

(0)

评论一句话评论（0）

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)

周排行