三个Python爬虫版本，带你轻松入门爬虫！

时间：2019-02-01 12:21:54 阅读：244 评论：0 收藏：0 [点我收藏+]

爬虫是什么？

如果我们把互联网比作一张大的蜘蛛网，数据便是存放于蜘蛛网的各个节点，而爬虫就是一只小蜘蛛，

沿着网络抓取自己的猎物（数据）爬虫指的是：向网站发起请求，获取资源后分析并提取有用数据的程序；

从技术层面来说就是通过程序模拟浏览器请求站点的行为，把站点返回的HTML代码/JSON数据/二进制数据（图片、视频）爬到本地，进而提取自己需要的数据，存放起来使用；

基本环境配置

版本：Python3

系统：Windows

IDE： Pycharm

爬虫所需工具：

请求库：requests,selenium（可以驱动浏览器解析渲染CSS和JS，但有性能劣势（有用没用的网页都会加载）；）

解析库：正则，beautifulsoup，pyquery

存储库：文件，MySQL，Mongodb，Redis

三个Python爬虫版本，带你以各种方式爬取校花网，轻松入门爬虫

Python爬虫基本流程
技术分享图片
基础版：

函数封装版

并发版

（如果一共需要爬30个视频，开30个线程去做，花的时间就是其中最慢那份的耗时时间）
技术分享图片
明白了Python爬虫的基本流程，然后对照代码是不是觉得爬虫特别的简单呢？

好啦，以上就是我的分享，如果你跟我一样都喜欢python，想成为一名优秀的程序员，也在学习python的道路上奔跑，欢迎你加入python学习群：839383765 群内每天都会分享最新业内资料，分享python免费课程，共同交流学习，让学习变（编）成（程）一种习惯！

原文地址：http://blog.51cto.com/14186420/2348286

踩

(0)

评论一句话评论（0）

分享档案

更多>

周排行