首页 > 其他好文 > 详细

爬虫---简介

时间：2020-09-08 20:44:36 阅读：43 评论：0 收藏：0 [点我收藏+]

标签：图片 god soup 保存 headers 保存到文件站点表达 redis

什么是爬虫?

编写程序, 模拟浏览器访问服务器, 从而获取动态资源

爬虫基本流程

发送请求

通过模块或库模拟浏览器, 向目标站点发送请求, 请求可以携带headers和参数等信息, 然后等待服务器响应
获取响应

服务器正常响应, 会返回一个response, 即页面内容, 可能是html, json或者二进制数据(音频视频图片)
数据解析

解析得到的响应内容, 可以通过正则表达式或beautifulSoup, xpath等解析器提炼出我们感兴趣的数据
保存数据

对解析出的数据, 进行保存, 可以保存到文件中, 可以保存到Redis, MongoDB等数据中

爬虫---简介

标签：图片 god soup 保存 headers 保存到文件站点表达 redis

原文地址：https://www.cnblogs.com/KX-Lau/p/13576893.html

踩

(0)

赞

(0)

举报

评论一句话评论（0）

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)

周排行

更多

友情链接

兰亭集智国之画百度统计站长统计阿里云 chrome插件新版天听网

关于我们 - 联系我们 - 留言反馈

© 2014 mamicode.com 版权所有联系我们:gaon5@hotmail.com

迷上了代码！