码迷,mamicode.com
首页 >  
搜索关键字:爬取    ( 4795个结果
03.爬取get请求的页面数据
一.urllib库 urllib是Python自带的一个用于爬虫的库,其主要作用就是可以通过代码模拟浏览器发送请求。其常被用到的子模块在Python3中的为urllib.request和urllib.parse,在Python2中是urllib和urllib2。 二.由易到难的爬虫程序: 1.爬取百 ...
分类:其他好文   时间:2019-07-08 13:34:13    阅读次数:90
requests第二弹
引入 有些时候,我们在使用爬虫程序去爬取一些用户相关信息的数据(爬取张三“人人网”个人主页数据)时,如果使用之前requests模块常规操作时,往往达不到我们想要的目的,例如: #!/usr/bin/env python # -*- coding:utf-8 -*- import requests ...
分类:其他好文   时间:2019-07-08 13:27:41    阅读次数:112
python多线程爬取图片二
上一篇的多线程是使用类创建的,这一次使用函数创建多线程,还是同一个网站https://www.quanjing.com/category/1286521/1.html, 代码如下: 在写代码时,遇到了两点困难:一是队列未空时,怎么让线程继续工作。刚开始是在if判断后调用main函数,但这样做等于又重 ...
分类:编程语言   时间:2019-07-07 14:42:06    阅读次数:123
用requests 爬取豆瓣书评的评论
1 import requests 2 3 4 url ="https://book.douban.com/subject/1084336/comments/" 5 response = requests.get(url) 6 r = response.text 7 8 from bs4 impor... ...
分类:其他好文   时间:2019-07-07 14:34:33    阅读次数:165
python爬取网页文本、图片
从网页爬取文本信息: eg:从http://computer.swu.edu.cn/s/computer/kxyj2xsky/中爬取讲座信息(讲座时间和讲座名称) 注:如果要爬取的内容是多页的话,网址一定要从第二页开始,因为有的首页和其他页的网址有些区别 代码 输出 数据库连接成功! ('2018- ...
分类:编程语言   时间:2019-07-07 12:47:50    阅读次数:115
爬取链家网租房图 使用ImagesPipeline保存图片
# 爬虫文件 # -*- coding: utf-8 -*- import scrapy import os from urllib import request from lianjia.items import LianjiaItem class LianjiaspiderSpider(scra... ...
分类:其他好文   时间:2019-07-06 19:31:54    阅读次数:108
JSFinder:一个在js文件中提取URL和子域名的脚本
JSFinder介绍 JSFinder是一款用作快速在网站的js文件中提取URL,子域名的脚本工具。 支持用法 简单爬取 深度爬取 批量指定URL/指定JS 其他参数 以往我们子域名多数使用爆破或DNS中获得,这个脚本从JS文件中匹配出子域也算是添砖加瓦。 简单爬取示例 子域名清单 https:// ...
分类:Web程序   时间:2019-07-05 22:44:05    阅读次数:268
selenium爬取斗鱼所有直播房间信息
还是分析一下大体的流程: 首先还是Chrome浏览器抓包分析元素,这是网址:https://www.douyu.com/directory/all 发现所有房间的信息都是保存在一个无序列表中的li中,所以我们可以先获取一个装有li的element对象的列表,然后在对每个element逐一操作 分析斗 ...
分类:其他好文   时间:2019-07-05 22:28:34    阅读次数:179
python+selenium爬取关键字搜索google图片
1 # -*- coding: utf-8 -*- 2 3 import json 4 import os 5 import time 6 from multiprocessing import Pool 7 import multiprocessing 8 import requests 9 fr... ...
分类:编程语言   时间:2019-07-05 19:27:39    阅读次数:152
爬虫---Beautiful Soup 爬取知乎热榜
前两章简单的讲了Beautiful Soup的用法,在爬虫的过程中相信都遇到过一些反爬虫,如何跳过这些反爬虫呢?今天通过豆瓣网写一个简单的反爬中 什么是反爬虫 简单的说就是使用任何技术手段,阻止别人批量获取自己网站信息的一种方式。关键也在于批量。 反反爬虫机制 增加请求头 headers为了模拟更真 ...
分类:其他好文   时间:2019-07-05 19:26:08    阅读次数:138
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!