码迷,mamicode.com
首页 > 编程语言 > 详细

Python爬虫从入门到进阶(2)之爬虫简介

时间:2018-12-21 21:17:59      阅读:214      评论:0      收藏:0      [点我收藏+]

标签:百度   内容   进阶   返回   持久   固定   允许   抓取   入门   

1.爬虫入门:使用代码模拟真实用户发送网络请求批量获取数据
1).爬虫价值:
1.买卖数据(高端领域特别贵)
2.数据分析(出分析报告)
3.流量
4.阿里指数,百度指数
2).合法性:灰色产业
政府没有法律规定爬虫是否违法
公司概念:公司让你爬取数据
爬虫是否可以爬所有的东西?不可以,爬虫只能爬取到用户可以访问的数据
爱奇艺视频(vip 用户,非 vip 用户)
付费小说(付费才能爬取)

2.爬虫分类:
1.通用爬虫:使用搜索引擎:百度,360,谷歌...
劣势:目标不明确,返回的内容90%是用户不需要的,不清楚用户的需求在哪里
优势:开放性,速度快
2.聚焦爬虫:
优势:目标明确,对用户的需求非常精准,返回的内容固定
3.增量式爬虫:翻页,从第一页爬到最后一页
4.Deep,深度爬虫:静态数据 html,动态数据:js 代码,加密的 js
robost协议:是否允许其他爬虫(通用爬虫)爬取某些内容

3.爬虫的工作原理:
1.查询你抓取目标的 url(必须的,难)
2.使用 Python 代码发送请求获取数据
3.解析获取道德数据(精准数据)
4.数据持久化

Python爬虫从入门到进阶(2)之爬虫简介

标签:百度   内容   进阶   返回   持久   固定   允许   抓取   入门   

原文地址:https://www.cnblogs.com/zimengfang/p/10158737.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!