码迷,mamicode.com
首页 > 其他好文 > 详细

爬虫基础篇1--爬虫原理

时间:2018-08-25 19:58:12      阅读:198      评论:0      收藏:0      [点我收藏+]

标签:图片   状态码   响应状态   表达   头信息   进制   res   处理   pyquery   

1.什么是爬虫?
请求网站并提取数据的自动化程序(让程序替你去上网)


2.爬虫的基本流程
(1)向服务器发起请求
(2)获取网页内容
(3)解析内容
(4)保存数据


3.什么是request和response
请求与响应:
浏览器与服务器(也是一台计算机)之间的交流。


4.request中包含了什么?
(1)请求方式(get,post)
(2)请求的URL
(3)请求头信息
(4)请求体(例如post请求的表单信息)


5.response中包含了什么?
(1)响应状态码(200 0K 404 NO FOUND)
(2)响应头
(3)响应体


6.爬虫可以抓怎样的数据?
网页文本,图片,视频


7.如何解析?
(1)直接处理
(2)json解析
(3)正则表达式
(4)beautifulsoup解析库(pyquery)


8如何保存数据?
文本,关系型数据库,非关系型数据库(key-value),二进制文本

爬虫基础篇1--爬虫原理

标签:图片   状态码   响应状态   表达   头信息   进制   res   处理   pyquery   

原文地址:https://www.cnblogs.com/CszShuzi/p/9535029.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!