搜索关键字：爬取，搜索到4795个结果！码迷,mamicode.com！

scrapy学习（1）

使用scrapy开发简单爬虫的步骤： 1、创建项目通过以上命令，可以得到下面的目录 2、开始修改items文件，这里放置你想要爬取的或者你感兴趣的东西 3、开始编写各个内容爬取的程序，也就是spider # -*- coding: utf-8 -*- import scrapy from Boo ...

分类：其他好文时间：2019-08-28 01:23:33 阅读次数：69

多线程补充以及协程

多线程补充以及协程 1.线程队列线程队列用法与进程队列一样 2.事件 3.协程 ? 一般在工作中我们都是进程+线程+协程的方式来实现并发，以达到最好的并发效果，如果是4核的cpu，一般起5个进程，每个进程中20个线程（5倍cpu数量），每个线程可以起500个协程，大规模爬取页面的时候，等待网络延迟 ...

分类：编程语言时间：2019-08-27 22:55:35 阅读次数：77

基本文件处理-爬取豆瓣电影排行榜

[TOC] 文件的类型什么是文件？一堆.py/.txt 存储着文字信息文件，文件的分类二进制文件：由0、1组成，例如.png文件文本文件：由单一特定编码组成的文件，如utf8，例如 .txt文件文件的打开与关闭文件处理的三个步骤打开（找到路径打开） | 打开模式 | 描述 | | : ...

分类：其他好文时间：2019-08-27 19:05:39 阅读次数：111

糗事百科爬虫案例

爬取糗事百科的热门的所有段子的作者、标题、内容链接、好笑数、评论数 ...

分类：其他好文时间：2019-08-27 17:31:17 阅读次数：89

【Scrapy框架的安装和基本用法】 𙦑

原文: http://blog.gqylpy.com/gqy/361 @ "toc" 什么是Scrapy? Scrapy是一个为了爬取网站数据，提取结构性数据而编写的应用框架，非常出名，非常强悍。所谓的框架就是一个已 ...

分类：其他好文时间：2019-08-27 12:19:46 阅读次数：78

使用scrapy-redis搭建分布式爬虫环境

scrapy-redis简介 scrapy-redis是scrapy框架基于redis数据库的组件，用于scrapy项目的分布式开发和部署。有如下特征： ? 分布式爬取您可以启动多个spider工程，相互之间共享单个redis的requests队列。最适合广泛的多个域名网站的内容爬取。 ? 分布 ...

分类：其他好文时间：2019-08-27 00:57:04 阅读次数：85

【Python requests多页面爬取案例】 񑶍

原文: http://blog.gqylpy.com/gqy/321 原文: http://blog.gqylpy.com/gqy/321 ...

分类：编程语言时间：2019-08-27 00:29:16 阅读次数：111

麦田厦门下区信息数据爬取

刚开始爬取的时候没有用headers伪装成是浏览器，导致麦田北京和福州小区把我的ip给禁掉了，还好后来发现原因也还剩下厦门小区没被我弄坏，代码如下： ...

分类：其他好文时间：2019-08-26 23:10:46 阅读次数：95

bilibili弹幕爬取与比对分析

最近受人之托研究了下b站的数据爬取做个小工具，最后朋友说不需要了，本着开源共享的原则，将研究成果与大家分享一波，话不多说直接上干货需求分析给定up主uid和用户uid，爬取用户在该up主所有视频中发的所有弹幕需求拆解获取up主所有视频打开b站，随便搜索一个up主，打开所有视频页面，f12看 ...

分类：其他好文时间：2019-08-26 22:53:16 阅读次数：175

python协程gevent案例：爬取斗鱼美女图片

分析分析网站寻找需要的网址用谷歌浏览器摁F12打开开发者工具，然后打开斗鱼颜值分类的页面，如图：在里面的请求中，最后发现它是以ajax加载的数据，数据格式为json，如图：圈住的部分是我们需要的数据，然后复制它的网址为https://www.douyu.com/gapi/rknc/direc ...

分类：编程语言时间：2019-08-26 18:03:32 阅读次数：105

共4795条上一页 1 ... 126 127 128 129 130 ... 480 下一页

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)