前言 爬取小说时,以每一个章节为一个线程进行爬取,如果不加以控制的话,保存的时候各个章节之间的顺序会乱掉。 当然,这里说的是一本小说保存为单个txt文件,如果以每个章节为一个txt文件,自然不会存在这种情况。 不仅仅是小说,一些其他的数据在多线程爬取时也有类似情况,比如: 它们都有一个共同的特点,那 ...
分类:
编程语言 时间:
2019-08-24 20:34:57
阅读次数:
114
import urllib.request import re #爬取小说是最基础的爬虫,学会思路就能去做一些高级爬虫,思路一样,只是用的库或者JS或者异步等问题不同而已url = "https://www.qb5200.tw/xiaoshuo/36/36143/"#爬取的小说网址 with url... ...
分类:
其他好文 时间:
2019-05-25 22:48:06
阅读次数:
203
在学爬虫之前, 最好有一些html基础, 才能更好的分析网页. 主要是五步: 1. 获取链接 2. 正则匹配 3. 获取内容 4. 处理内容 5. 写入文件 代码如下: 1 #导入相关model 2 from bs4 import BeautifulSoup 3 import requests 4 ...
分类:
编程语言 时间:
2019-02-05 18:25:09
阅读次数:
274
1. 在用python爬取小说的时候, 发现在内容里每次换行都有\r\n(即回车, 换行)出现. 此时可以采用 s.replace('\\r\\n','') , 其中s为字符串类型. 2. 在爬取完小说内容后, 用记事本打开时每个段落无论长短都只占一行, 此时可以点击记事本上方的 '格式' --> ...
分类:
Web程序 时间:
2019-02-05 18:20:44
阅读次数:
490
1.Beautiful Soup 1.Beautifulsoup 简介 此次实战从网上爬取小说,需要使用到Beautiful Soup。Beautiful Soup为python的第三方库,可以帮助我们从网页抓取数据。它主要有如下特点: 1.Beautiful Soup可以从一个HTML或者XML提 ...
分类:
编程语言 时间:
2019-01-24 14:31:10
阅读次数:
216
也不知道这算不算爬虫,哈哈,主要是理解BeautifulSoup的用法。
分类:
其他好文 时间:
2018-11-29 15:37:25
阅读次数:
388
为什么要使用Go写爬虫呢? 对于我而言,这仅仅是练习Golang的一种方式。 所以,我没有使用爬虫框架,虽然其很高效。 为什么我要写这篇文章? 将我在写爬虫时找到资料做一个总结,希望对于想使用Golang写爬虫的你能有一些帮助。 爬虫主要需要解决两个问题: 1. 获取网页 2. 解析网页 如果这两个 ...
分类:
其他好文 时间:
2018-11-03 02:24:58
阅读次数:
310
1.爬取目标网站:http://www.zhaoxiaoshuo.com/all.php?c=0&o=0&s=0&f=2&l=0&page=1 2.爬取目标网站信息:小说类型 小说书名 小说作者 小说字数 小说投票数 小说搜藏数 小说状态 3.scrapy框架结构: (1)items.py (2)s ...
分类:
其他好文 时间:
2018-08-04 20:35:02
阅读次数:
228
需要使用的库 requests re 1、打开网址“ http://www.17k.com/list/2726194.html ”查看章节目录 按F12查看如下: 经过分析,我们可以通过简单的正则表达式,提取出每一章的章节名称(源代码第34行) 2、接下来打开第一章通过源代码再次分析 再次通过简单的 ...
分类:
其他好文 时间:
2018-07-30 21:26:34
阅读次数:
124
最近在学习 Python,觉得爬虫很好玩,今天我准备爬取我看了至少三遍的小说《雪中悍刀行》,作者是烽火戏诸侯,他的小说很有才华,有着很多的粉丝,但他很多部小说都处于断更状态,因此人称大内总管。 我准备爬取小说的网站是新笔趣阁,这里一个盗版网站,是名门正派的眼中钉,不过对于我这种不想交钱看小说的人,没 ...
分类:
编程语言 时间:
2018-07-07 00:27:32
阅读次数:
724