一.urllib库 urllib是Python自带的一个用于爬虫的库,其主要作用就是可以通过代码模拟浏览器发送请求。其常被用到的子模块在Python3中的为urllib.request和urllib.parse,在Python2中是urllib和urllib2。 二.由易到难的爬虫程序: 1.爬取百 ...
分类:
其他好文 时间:
2019-07-08 13:34:13
阅读次数:
90
引入 有些时候,我们在使用爬虫程序去爬取一些用户相关信息的数据(爬取张三“人人网”个人主页数据)时,如果使用之前requests模块常规操作时,往往达不到我们想要的目的,例如: #!/usr/bin/env python # -*- coding:utf-8 -*- import requests ...
分类:
其他好文 时间:
2019-07-08 13:27:41
阅读次数:
112
上一篇的多线程是使用类创建的,这一次使用函数创建多线程,还是同一个网站https://www.quanjing.com/category/1286521/1.html, 代码如下: 在写代码时,遇到了两点困难:一是队列未空时,怎么让线程继续工作。刚开始是在if判断后调用main函数,但这样做等于又重 ...
分类:
编程语言 时间:
2019-07-07 14:42:06
阅读次数:
123
1 import requests 2 3 4 url ="https://book.douban.com/subject/1084336/comments/" 5 response = requests.get(url) 6 r = response.text 7 8 from bs4 impor... ...
分类:
其他好文 时间:
2019-07-07 14:34:33
阅读次数:
165
从网页爬取文本信息: eg:从http://computer.swu.edu.cn/s/computer/kxyj2xsky/中爬取讲座信息(讲座时间和讲座名称) 注:如果要爬取的内容是多页的话,网址一定要从第二页开始,因为有的首页和其他页的网址有些区别 代码 输出 数据库连接成功! ('2018- ...
分类:
编程语言 时间:
2019-07-07 12:47:50
阅读次数:
115
# 爬虫文件 # -*- coding: utf-8 -*- import scrapy import os from urllib import request from lianjia.items import LianjiaItem class LianjiaspiderSpider(scra... ...
分类:
其他好文 时间:
2019-07-06 19:31:54
阅读次数:
108
JSFinder介绍 JSFinder是一款用作快速在网站的js文件中提取URL,子域名的脚本工具。 支持用法 简单爬取 深度爬取 批量指定URL/指定JS 其他参数 以往我们子域名多数使用爆破或DNS中获得,这个脚本从JS文件中匹配出子域也算是添砖加瓦。 简单爬取示例 子域名清单 https:// ...
分类:
Web程序 时间:
2019-07-05 22:44:05
阅读次数:
268
还是分析一下大体的流程: 首先还是Chrome浏览器抓包分析元素,这是网址:https://www.douyu.com/directory/all 发现所有房间的信息都是保存在一个无序列表中的li中,所以我们可以先获取一个装有li的element对象的列表,然后在对每个element逐一操作 分析斗 ...
分类:
其他好文 时间:
2019-07-05 22:28:34
阅读次数:
179
1 # -*- coding: utf-8 -*- 2 3 import json 4 import os 5 import time 6 from multiprocessing import Pool 7 import multiprocessing 8 import requests 9 fr... ...
分类:
编程语言 时间:
2019-07-05 19:27:39
阅读次数:
152
前两章简单的讲了Beautiful Soup的用法,在爬虫的过程中相信都遇到过一些反爬虫,如何跳过这些反爬虫呢?今天通过豆瓣网写一个简单的反爬中 什么是反爬虫 简单的说就是使用任何技术手段,阻止别人批量获取自己网站信息的一种方式。关键也在于批量。 反反爬虫机制 增加请求头 headers为了模拟更真 ...
分类:
其他好文 时间:
2019-07-05 19:26:08
阅读次数:
138