Python爬虫从入门到进阶(2)之爬虫简介

时间：2018-12-21 21:17:59 阅读：214 评论：0 收藏：0 [点我收藏+]

1.爬虫入门:使用代码模拟真实用户发送网络请求批量获取数据
1).爬虫价值:
    1.买卖数据(高端领域特别贵)
    2.数据分析(出分析报告)
    3.流量
    4.阿里指数,百度指数
2).合法性:灰色产业
政府没有法律规定爬虫是否违法
    公司概念:公司让你爬取数据
    爬虫是否可以爬所有的东西?不可以,爬虫只能爬取到用户可以访问的数据
    爱奇艺视频(vip 用户,非 vip 用户)
    付费小说(付费才能爬取)

2.爬虫分类:
    1.通用爬虫:使用搜索引擎:百度,360,谷歌...
    劣势:目标不明确,返回的内容90%是用户不需要的,不清楚用户的需求在哪里
    优势:开放性,速度快
    2.聚焦爬虫:
    优势:目标明确,对用户的需求非常精准,返回的内容固定
    3.增量式爬虫:翻页,从第一页爬到最后一页
    4.Deep,深度爬虫:静态数据 html,动态数据:js 代码,加密的 js
    robost协议:是否允许其他爬虫(通用爬虫)爬取某些内容

3.爬虫的工作原理:
    1.查询你抓取目标的 url(必须的,难)
    2.使用 Python 代码发送请求获取数据
    3.解析获取道德数据(精准数据)
    4.数据持久化

标签：百度内容进阶返回持久固定允许抓取入门

原文地址：https://www.cnblogs.com/zimengfang/p/10158737.html

踩

(0)

评论一句话评论（0）

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)

周排行