原文地址https://www.cnblogs.com/zhaof/p/6915127.html python爬虫从入门到放弃(四)之 Requests库的基本使用 什么是Requests Requests是用python语言基于urllib编写的,采用的是Apache2 Licensed开源协议的 ...
分类:
编程语言 时间:
2019-01-26 23:45:12
阅读次数:
228
类>构造函数 类>一般方法printAll main函数 ...
分类:
编程语言 时间:
2019-01-26 23:45:30
阅读次数:
227
原文地址https://www.cnblogs.com/zhaof/p/6910871.html 官方文档地址:https://docs.python.org/3/library/urllib.html 什么是Urllib Urllib是python内置的HTTP请求库包括以下模块urllib.re ...
分类:
编程语言 时间:
2019-01-26 23:45:57
阅读次数:
234
生成消费者模型:通过一个容器来解决生产者和消费者的强耦合问题 ...
分类:
编程语言 时间:
2019-01-26 23:46:43
阅读次数:
223
1 传统的Uv实时统计方法以及其缺点 给定时间段条件下,实时统计Uv就是统计不重复的访客数。 最简单的方法就是把用户唯一id存储到集合中,每次有新访客,就把向集合新增元素。 但是当数据量千万级别的时候,无论是内存中,还是redis等外部系统中,集合新增元素的效率都很低。 2 HyperLoglog ...
分类:
编程语言 时间:
2019-01-26 23:48:30
阅读次数:
486
第一章 Python基础 第八节 函数 定义函数 函数 其实就可以理解为外挂,把一些常用的、重复率比较多你又不想重复写的东西写进函数,加上开关实现简化操作 举个简单的例子 1 def greet_user(username): 2 #定义一个叫做“迎接用户”的外挂,让他能直接打印一个问候语,括号里面 ...
分类:
编程语言 时间:
2019-01-27 00:20:47
阅读次数:
320
#include #include #include #include #include #include #include #include #include #include #include #include #include using namespace std; #define ll l... ...
分类:
编程语言 时间:
2019-01-27 00:22:05
阅读次数:
234
原文地址https://www.cnblogs.com/zhaof/p/6953241.html 一、什么是Selenium selenium 是一套完整的web应用程序测试系统,包含了测试的录制(selenium IDE),编写及运行(Selenium Remote Control)和测试的并行处 ...
分类:
编程语言 时间:
2019-01-27 00:23:04
阅读次数:
261
原文地址https://www.cnblogs.com/zhaof/p/6930955.html 上一篇文章的正则,其实对很多人来说用起来是不方便的,加上需要记很多规则,所以用起来不是特别熟练,而这节我们提到的beautifulsoup就是一个非常强大的工具,爬虫利器。 beautifulSoup ...
分类:
编程语言 时间:
2019-01-27 00:23:14
阅读次数:
225
原文地址https://www.cnblogs.com/zhaof/p/6935473.html PyQuery库也是一个非常强大又灵活的网页解析库,如果你有前端开发经验的,都应该接触过jQuery,那么PyQuery就是你非常绝佳的选择,PyQuery 是 Python 仿照 jQuery 的严格 ...
分类:
编程语言 时间:
2019-01-27 00:24:59
阅读次数:
216
2.5列表list。 列表是python中的基础数据类型之一,其他语言中也有类似于列表的数据类型,比如js中叫数组,他是以[]括起来,每个元素以逗号隔开,而且他里面可以存放各种数据类型比如: li = [‘alex’,123,Ture,(1,2,3,’wusir’),[1,2,3,’小明’,],{‘ ...
分类:
编程语言 时间:
2019-01-27 00:25:31
阅读次数:
200
原文地址https://www.cnblogs.com/zhaof/p/6959012.html 通过前面的文章已经学习了基本的爬虫知识,通过这个例子进行一下练习,毕竟前面文章的知识点只是一个 一个单独的散知识点,需要通过实际的例子进行融合 分析网站 其实爬虫最重要的是前面的分析网站,只有对要爬取的 ...
分类:
编程语言 时间:
2019-01-27 00:25:39
阅读次数:
227
原文地址https://www.cnblogs.com/zhaof/p/7092400.html 网站的树结构 深度优先算法和实现 广度优先算法和实现 网站的树结构 通过伯乐在线网站为例子: 并且我们通过访问伯乐在线也是可以发现,我们从任何一个子页面其实都是可以返回到首页,所以当我们爬取页面的数据的 ...
分类:
编程语言 时间:
2019-01-27 00:26:46
阅读次数:
310
原文地址https://www.cnblogs.com/zhaof/p/7198407.html 这篇文章中写了常用的下载中间件的用法和例子。Downloader Middleware处理的过程主要在调度器发送requests请求的时候以及网页将response结果返回给spiders的时候,所以从 ...
分类:
编程语言 时间:
2019-01-27 01:06:39
阅读次数:
235
原文地址https://www.cnblogs.com/zhaof/p/7173397.html 这一篇文章主要是为了对scrapy框架的工作流程以及各个组件功能的介绍 Scrapy目前已经可以很好的在python3上运行Scrapy使用了Twisted作为框架,Twisted有些特殊的地方是它是事 ...
分类:
编程语言 时间:
2019-01-27 01:07:15
阅读次数:
180
01、基础班 1-1 Linux基础 1-2 python基础 1-3 面向对象 1-4 项目飞机大战 02、就业班 01 网络编程 02 多任务 03 web服务器v3.1 04 Python高级语法v3.1 05 MySQL数据库v3.1 06 mini-web框架v3.1 07 HTML和CS ...
分类:
编程语言 时间:
2019-01-27 01:07:25
阅读次数:
510
原文地址https://www.cnblogs.com/zhaof/p/7192503.html Spider类定义了如何爬去某个网站,包括爬取的动作以及如何从网页内容中提取结构化的数据,总的来说spider就是定义爬取的动作以及分析某个网页 工作流程分析 我们以通过简单的分析源码来理解我通常在写s ...
分类:
编程语言 时间:
2019-01-27 01:08:31
阅读次数:
197
课程目录: ├─第一章节:Python 网络爬虫之基础│ 1、课程介绍│ 2、Python初识│ 3、Python基础语法│ 4、Python控制流与小实例实战│ 5、Python函数详解│ 6、Python模块实战│ 7、Python文件操作实战│ 8、Python异常处理实战│ 9、Python ...
分类:
编程语言 时间:
2019-01-27 01:08:51
阅读次数:
344
原文地址https://www.cnblogs.com/zhaof/p/7183220.html 这篇文章主要是对的scrapy命令行使用的一个介绍 创建爬虫项目 scrapy startproject 项目名例子如下: 这个时候爬虫的目录结构就已经创建完成了,目录结构如下: 接着我们按照提示可以生 ...
分类:
编程语言 时间:
2019-01-27 01:10:11
阅读次数:
203
原文地址https://www.cnblogs.com/zhaof/p/7196197.html 当Item 在Spider中被收集之后,就会被传递到Item Pipeline中进行处理 每个item pipeline组件是实现了简单的方法的python类,负责接收到item并通过它执行一些行为,同 ...
分类:
编程语言 时间:
2019-01-27 01:10:20
阅读次数:
210