码迷,mamicode.com
首页 > 其他好文 > 详细

爬虫—詹姆士(20161014)

时间:2018-10-16 20:50:06      阅读:168      评论:0      收藏:0      [点我收藏+]

标签:代码简介   就是   c++   数据   模块   网页数据   选择   超文本标记语言   16px   

什么是爬虫?
爬虫:就是抓取网页数据的程序。
网页的三大特征:
1.确定对方位置。 **(URL(统一资源定位符),理解成网页或资源地址。
2.协议联系的方式(微信,打电话) **HTTP/HTTPS(超文本传输协议)
3.语言的选择 **HTML(超文本标记语言)

浏览器用来干嘛的? 解释器(HTML)

Python用来做爬虫?
JAVA:生态圈非常完善。重构(改写)成本比较高。
C/C++:运行效率以及性能几乎是最强的,学习成本太高了。
PHP:天生不是用来做爬虫的,对多线程和异步的支持不是很好。
Python:语法非常优美,代码简介,开发效率高,支持的模块以及库很多。

爬虫的分类:
1.通用爬虫:搜索引擎用的爬虫系统(百度,谷歌)
2.聚焦爬虫:针对某种内容的爬虫。

爬虫思路:
1.获取URL

2.发起请求

3.得到反馈作调整

4.保存

爬虫—詹姆士(20161014)

标签:代码简介   就是   c++   数据   模块   网页数据   选择   超文本标记语言   16px   

原文地址:https://www.cnblogs.com/wxq201810/p/9800464.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!