码迷,mamicode.com
首页 >  
搜索关键字:爬取    ( 4795个结果
scrapy学习(1)
使用scrapy开发简单爬虫的步骤: 1、创建项目 通过以上命令,可以得到下面的目录 2、开始修改items文件, 这里放置你想要爬取的或者你感兴趣的东西 3、开始编写各个内容爬取的程序,也就是spider # -*- coding: utf-8 -*- import scrapy from Boo ...
分类:其他好文   时间:2019-08-28 01:23:33    阅读次数:69
多线程补充以及协程
多线程补充以及协程 1.线程队列 线程队列用法与进程队列一样 2.事件 3.协程 ? 一般在工作中我们都是进程+线程+协程的方式来实现并发,以达到最好的并发效果,如果是4核的cpu,一般起5个进程,每个进程中20个线程(5倍cpu数量),每个线程可以起500个协程,大规模爬取页面的时候,等待网络延迟 ...
分类:编程语言   时间:2019-08-27 22:55:35    阅读次数:77
基本文件处理-爬取豆瓣电影排行榜
[TOC] 文件的类型 什么是文件? 一堆.py/.txt 存储着文字信息文件, 文件的分类 二进制文件:由0、1组成,例如.png文件 文本文件:由单一特定编码组成的文件,如utf8,例如 .txt文件 文件的打开与关闭 文件处理的三个步骤 打开(找到路径打开) | 打开模式 | 描述 | | : ...
分类:其他好文   时间:2019-08-27 19:05:39    阅读次数:111
糗事百科爬虫案例
爬取糗事百科的热门的所有段子的作者、标题、内容链接、好笑数、评论数 ...
分类:其他好文   时间:2019-08-27 17:31:17    阅读次数:89
【Scrapy框架的安装和基本用法】 𙦑
原文: http://blog.gqylpy.com/gqy/361 @ "toc" 什么是Scrapy?        Scrapy是一个为了爬取网站数据,提取结构性数据而编写的应用框架,非常出名,非常强悍。所谓的框架就是一个已 ...
分类:其他好文   时间:2019-08-27 12:19:46    阅读次数:78
使用scrapy-redis搭建分布式爬虫环境
scrapy-redis简介 scrapy-redis是scrapy框架基于redis数据库的组件,用于scrapy项目的分布式开发和部署。 有如下特征: ? 分布式爬取 您可以启动多个spider工程,相互之间共享单个redis的requests队列。最适合广泛的多个域名网站的内容爬取。 ? 分布 ...
分类:其他好文   时间:2019-08-27 00:57:04    阅读次数:85
【Python requests多页面爬取案例】 񑶍
原文: http://blog.gqylpy.com/gqy/321 原文: http://blog.gqylpy.com/gqy/321 ...
分类:编程语言   时间:2019-08-27 00:29:16    阅读次数:111
麦田厦门下区信息数据爬取
刚开始爬取的时候没有用headers伪装成是浏览器,导致麦田北京和福州小区把我的ip给禁掉了,还好后来发现原因也还剩下厦门小区没被我弄坏,代码如下: ...
分类:其他好文   时间:2019-08-26 23:10:46    阅读次数:95
bilibili弹幕爬取与比对分析
最近受人之托研究了下b站的数据爬取做个小工具,最后朋友说不需要了,本着开源共享的原则,将研究成果与大家分享一波,话不多说直接上干货 需求分析 给定up主uid和用户uid,爬取用户在该up主所有视频中发的所有弹幕 需求拆解 获取up主所有视频 打开b站,随便搜索一个up主,打开所有视频页面,f12看 ...
分类:其他好文   时间:2019-08-26 22:53:16    阅读次数:175
python协程gevent案例:爬取斗鱼美女图片
分析 分析网站寻找需要的网址 用谷歌浏览器摁F12打开开发者工具,然后打开斗鱼颜值分类的页面,如图: 在里面的请求中,最后发现它是以ajax加载的数据,数据格式为json,如图: 圈住的部分是我们需要的数据,然后复制它的网址为https://www.douyu.com/gapi/rknc/direc ...
分类:编程语言   时间:2019-08-26 18:03:32    阅读次数:105
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!