记录一下自己是如何将题库中的所有题目爬出来并整理成Wrod文档的

时间：2020-12-17 12:24:34 阅读：2 评论：0 收藏：0 [点我收藏+]

标签：png order 源码爬取 pycha https load 记录格式

首先打开考试系统，登录，进入考试，点击试题库。

按F12打开调试窗口，随便选择一个题目。

按F12打开调试窗口，Ctrl+Shift+C选择元素，随便选择一个题目

技术图片

可以看到操作题第一题的 url="index.php?exam-app-questions-detail&questionid=8388"。

将考试系统的地址前缀复制进来得到网址：

"http://112.5.137.43:8019/2020/index.php?exam-app-questions-detail&questionid=8388"

并且观察到整个题库中8388为最大编号（第一页第一个题目），最后面的8286为最小编号（最后一页最后一个题目）。

用浏览器访问上面那个题目的网址发现可以访问，并且打开F12调试工具发现body中只有一个表格，格式如下：

科目：	计算机组装与维护
章节：	计算机组装与维护
知识点：	计算机组装与维护
标题：	请将自己计算机的备用DNS服务器改成：114.114.114.114
备选项：
答案：
解析：
难度：	易

技术图片

在网上搜索“用python爬取网站教程”得到了一个不错的简单教程：

https://blog.csdn.net/haoronge9921/article/details/103511467

试着在Pycharm中不设置cookie尝试爬取上面那个题目网址的网页

可以看到运行结果为要求用户登录的界面

技术图片

接下来获取自己的cookie

打开题目页面且摁F12打开调试,刷新一下，切换到NETWORK栏

点下这玩意

技术图片

在Headers下面找到自己的cookie 和User-Agent

技术图片

（其实这一步也可以在APPLICATION栏里完成）

把自己的coockie和User-Agent贴到上面那个教程里获得的代码

技术图片

url替换成题目的url,执行代码发现可以输出

接下来直接定义一个for循环，从8286题一直输出到8388题并打印

技术图片

结果全部103题都以网页源码输出了：

技术图片

复制输出结果出来到txt中。

103题总共是103个table

用SublimeText的批量替换功能去除不需要的行：科目、章节、知识点、解析、难度。

最后将txt后缀改为html得效果如下

技术图片

接下来把这个网页导入到Excel表格里（上网查了下才知道有这个功能），顺序是：新建个表格，数据->从文本或csv

技术图片这里选所有文件

选择处理好的网页文件，导入

技术图片

之后选择多项，选择所有题目表格。

技术图片

处理好后是这样有一百多个工作表

用WPS合并所有工作表，这功能需要WPS会员，巧的是这软件突然就送我了个7天体验会员，就用上了。

合并表格后，用WPS将其复制到WORD中。

稍微修改一下格式，美化下，就得到了新鲜出炉的题库Word文件。技术图片

记录一下自己是如何将题库中的所有题目爬出来并整理成Wrod文档的

标签：png order 源码爬取 pycha https load 记录格式

原文地址：https://www.cnblogs.com/lunlunlun/p/14123415.html

踩

(0)

评论一句话评论（0）

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)

周排行