(1)实战背景 小说网站-笔趣看: URL:http://www.biqukan.com/ 笔趣看是一个盗版小说网站,这里有很多起点中文网的小说,该网站小说的更新速度稍滞后于起点中文网正版小说的更新速度。并且该网站只支持在线浏览,不支持小说打包下载。因此,本次实战就是从该网站爬取并保存一本名为《一念 ...
分类:
编程语言 时间:
2020-06-14 13:03:15
阅读次数:
66
爬取起点月票榜 一、实现过程: 1、找到一个感兴趣的网页——起点中文网的月票排行榜(https://www.qidian.com/rank/yuepiao),并尝试爬取: 2、分析网页源代码,思考提取数据方法 书名在h4标签,简介在p标签 利用soup.find_all(name, attrs, r ...
分类:
其他好文 时间:
2020-04-30 19:36:03
阅读次数:
100
当需要的信息要经过两个链接才能打开的时候,就需要用到嵌套爬取。 比如要爬取起点中文网排行榜的小说简介,找到榜单网址:https://www.qidian.com/all?orderId=&style=1&pageSize=20&siteid=1&pubflag=0&hiddenField=0&pag ...
分类:
编程语言 时间:
2019-07-11 20:00:13
阅读次数:
145
爬虫简单之二 使用进程爬取起点中文网的六万多也页小说的名字,作者,等一些基本信息,并存入csv中 准备使用的环境和库Python3.6 + requests + bs4 + csv + multiprocessing 库的说明 requests模拟计算机对服务器发送requests请求 bs4:页面 ...
分类:
系统相关 时间:
2019-05-19 14:38:34
阅读次数:
208
本文章主要是lxml库的etree解析抽取与xpath解析的应用,还使用了os库写文件 ...
分类:
其他好文 时间:
2019-02-20 22:49:42
阅读次数:
760
项目名称:qidian 项目描述:利用scrapy抓取七点中文网的“完本榜”总榜的500本小说,抓取内容包括:小说名称,作者,类别,然后保存为CSV文件 目标URL:https://www.qidian.com/rank/fin?style=1 项目需求: 1.小说名称 2.作者 3.小说类别 第一 ...
分类:
其他好文 时间:
2018-07-17 23:22:48
阅读次数:
170
一、选一个自己感兴趣的主题(所有人不能雷同)。 因为以前很喜欢看小说,看到一些小说情节时会想象这样写好不好,怎样写能更好。因为好的剧情和文章质量能够吸引更多的读者,并且从商业角度出发有质量的文章能留住‘老书虫‘,而大部分的小说打赏其实是来自老读者的。 这次的爬虫网站是起点中文网,此网站可以说是中国最 ...
分类:
其他好文 时间:
2018-04-28 22:15:02
阅读次数:
210
起点中文网上连载的穿越小说。最近完本了。基本结构是穿越+架空。主人公在宋朝做了许多改变历史的事,但是书中的大事大部分是历史上发生过,作者移花接木安排到主人公名下,包括朝廷上大臣们的各种争斗,跟西夏契丹的战争等。只有开头征服越南的战争和最后打败契丹的战争实际没发生过。 作者对宋朝的官僚制度下了比较大的 ...
分类:
其他好文 时间:
2018-04-11 23:10:25
阅读次数:
326