import json import requests from lxml import etree from time import sleep url = "https://www.jianshu.com/shakespeare/notes/60479187/comments?page=1&co ...
分类:
编程语言 时间:
2020-03-14 13:14:06
阅读次数:
97
Scrapy安装 安装Scrapy有两种途径: 使用pip安装: 使用国内豆瓣安装: 推荐使用第二种方式,安装速度很快。 Scrapy命令 在命令行中输入scrapy,会直接显示常用的命令: 1、 :创建一个新的项目。 2、 :name是爬虫的名字,domain是所爬取的网站名。 3、 :启动爬虫。 ...
分类:
其他好文 时间:
2020-03-13 01:40:17
阅读次数:
73
一 先从爬虫案例开始 爬虫和反爬虫之间的斗争,看似反爬虫占据着主动权,但最后都爬虫者获胜,只是付出代价大小的问题,所以这个问题并不重要,真正重要的是爬虫者要有一定的道德底线,虽然技术允许;技术可以具备,但不要爬哪些别人不愿透露的数据,这些数据可能是别人付出巨大代价获取的,恶意爬取别人重要数据,会给别 ...
分类:
其他好文 时间:
2020-03-13 01:28:42
阅读次数:
66
1.打开网页 2.获取源代码 3.解析网页,提取需要的内容,先找第一名的 这里找到需要提取的标题a标签,分析特点,它的类是title,在代码中可以用find函数查找 但是发现打印只能打出一条,所以改用另一条find_all涵数 发现成功将排行榜爬取下来,想到可以用for循环把结果一个个打印出来 因为 ...
分类:
其他好文 时间:
2020-03-12 23:51:01
阅读次数:
116
今天调用高德地图API利用给定地址获取到了其标准地域纬度(省市县),并对应了其行政区域代码。 但是在这期间也遇到了问题: ①:一开始我是通过API获取给定地址的经纬度,再利用其经纬度从高德地图爬取其省市县标准地域纬度及其行政区域代码 首先获取经纬度: 1 def get_coordinates(ad ...
分类:
其他好文 时间:
2020-03-12 23:46:04
阅读次数:
89
import requests from lxml import etree url_domain="https://www.dytt8.net" headers={ "User-Agent":"Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537 ...
分类:
Web程序 时间:
2020-03-12 12:49:30
阅读次数:
91
在反复爬取拉勾网的信息都被拉勾网服务器识破了之后,我登录了拉勾网,并且把cookies信息放在了响应头中,结果成功了! 代码如下: import requests url="https://www.lagou.com/jobs/positionAjax.json?needAddtionalResul ...
分类:
其他好文 时间:
2020-03-11 15:06:44
阅读次数:
158
现在很多站长都会有抓取数据的需求,因此网络爬虫在一定程度上越来越火爆,其实爬虫的基本功能很简单,就是分析大量的url的html页面,从而提取新的url,但是在实际操作中通常都会遇到各种各样的问题,比如说抓取数据的过程中需要根据实际需求来筛选url继续爬行;或者说为了能正常爬取,减少别人服务器的压力,你需要控制住爬取的速度和工作量···但是即便再小心,很多时候也会遇到被网页封禁的情况。在实际操作过程
分类:
其他好文 时间:
2020-03-10 23:31:56
阅读次数:
215
今天写一个通过python获取论坛用户信息的demo 有朋友会问,这玩意有啥用么?用处老大了,举个栗子,通过获取到用户的信息与本地库比对,就会获得N多账号密码,不多解释 爬取一个CTF的站吧,https://www.bugku.com/ 先分析 1.会员数量,看图说话,明显官网提供的数据不对,自己抓 ...
分类:
编程语言 时间:
2020-03-10 20:09:00
阅读次数:
80
千千音乐可能是第一次爬(没爬到vip),但后来我成功爬到了qq和酷我的vip音乐 我觉得难度应该是qq>kuwo>千千吧 千千和酷我在上篇已经有了就不再重复了这篇详细讲讲qq音乐 爬虫最重要的就是先明确目的能列个表最好不过了: 1 找到一首歌的播放url 2 对比不同的歌找到url变化参数 id。v ...
分类:
其他好文 时间:
2020-03-09 13:53:43
阅读次数:
63