使用scrapy开发简单爬虫的步骤: 1、创建项目 通过以上命令,可以得到下面的目录 2、开始修改items文件, 这里放置你想要爬取的或者你感兴趣的东西 3、开始编写各个内容爬取的程序,也就是spider # -*- coding: utf-8 -*- import scrapy from Boo ...
分类:
其他好文 时间:
2019-08-28 01:23:33
阅读次数:
69
多线程补充以及协程 1.线程队列 线程队列用法与进程队列一样 2.事件 3.协程 ? 一般在工作中我们都是进程+线程+协程的方式来实现并发,以达到最好的并发效果,如果是4核的cpu,一般起5个进程,每个进程中20个线程(5倍cpu数量),每个线程可以起500个协程,大规模爬取页面的时候,等待网络延迟 ...
分类:
编程语言 时间:
2019-08-27 22:55:35
阅读次数:
77
[TOC] 文件的类型 什么是文件? 一堆.py/.txt 存储着文字信息文件, 文件的分类 二进制文件:由0、1组成,例如.png文件 文本文件:由单一特定编码组成的文件,如utf8,例如 .txt文件 文件的打开与关闭 文件处理的三个步骤 打开(找到路径打开) | 打开模式 | 描述 | | : ...
分类:
其他好文 时间:
2019-08-27 19:05:39
阅读次数:
111
爬取糗事百科的热门的所有段子的作者、标题、内容链接、好笑数、评论数 ...
分类:
其他好文 时间:
2019-08-27 17:31:17
阅读次数:
89
原文: http://blog.gqylpy.com/gqy/361 @ "toc" 什么是Scrapy? Scrapy是一个为了爬取网站数据,提取结构性数据而编写的应用框架,非常出名,非常强悍。所谓的框架就是一个已 ...
分类:
其他好文 时间:
2019-08-27 12:19:46
阅读次数:
78
scrapy-redis简介 scrapy-redis是scrapy框架基于redis数据库的组件,用于scrapy项目的分布式开发和部署。 有如下特征: ? 分布式爬取 您可以启动多个spider工程,相互之间共享单个redis的requests队列。最适合广泛的多个域名网站的内容爬取。 ? 分布 ...
分类:
其他好文 时间:
2019-08-27 00:57:04
阅读次数:
85
原文: http://blog.gqylpy.com/gqy/321 原文: http://blog.gqylpy.com/gqy/321 ...
分类:
编程语言 时间:
2019-08-27 00:29:16
阅读次数:
111
刚开始爬取的时候没有用headers伪装成是浏览器,导致麦田北京和福州小区把我的ip给禁掉了,还好后来发现原因也还剩下厦门小区没被我弄坏,代码如下: ...
分类:
其他好文 时间:
2019-08-26 23:10:46
阅读次数:
95
最近受人之托研究了下b站的数据爬取做个小工具,最后朋友说不需要了,本着开源共享的原则,将研究成果与大家分享一波,话不多说直接上干货 需求分析 给定up主uid和用户uid,爬取用户在该up主所有视频中发的所有弹幕 需求拆解 获取up主所有视频 打开b站,随便搜索一个up主,打开所有视频页面,f12看 ...
分类:
其他好文 时间:
2019-08-26 22:53:16
阅读次数:
175
分析 分析网站寻找需要的网址 用谷歌浏览器摁F12打开开发者工具,然后打开斗鱼颜值分类的页面,如图: 在里面的请求中,最后发现它是以ajax加载的数据,数据格式为json,如图: 圈住的部分是我们需要的数据,然后复制它的网址为https://www.douyu.com/gapi/rknc/direc ...
分类:
编程语言 时间:
2019-08-26 18:03:32
阅读次数:
105