码迷,mamicode.com
首页 > 编程语言 > 详细

python爬虫从入门到精通-系列教程

时间:2019-09-22 14:42:25      阅读:135      评论:0      收藏:0      [点我收藏+]

标签:开始   经验   网络爬虫   抓取数据   indexer   是什么   本质   整理   mat   

开始爬虫之旅

引言

我经常会看到有人在知乎上提问如何入门 Python 爬虫?Python 爬虫进阶?利用爬虫技术能做到哪些很酷很有趣很有用的事情?等这一些问题,我写这一系列的文章的目的就是把我的经验告诉大家。

什么是爬虫?

引用自维基百科

网络蜘蛛(Web spider)也叫网络爬虫(Web crawler),蚂蚁(ant),自动检索工具(automatic indexer),或者(在FOAF软件概念中)网络疾走(WEB scutter),是一种“自动化浏览网络”的程序,或者说是一种网络机器人。它们被广泛用于互联网搜索引擎或其他类似网站,以获取或更新这些网站的内容和检索方式。它们可以自动采集所有其能够访问到的页面内容,以供搜索引擎做进一步处理(分检整理下载的页面),而使得用户能更快的检索到他们需要的信息。

我的理解就是可以自动的抓取数据

爬虫能做什么?

  • 可以创建搜索引擎(Google,百度)

  • 可以用来抢火车票

  • 带逛

  • 简单来讲只要浏览器能打开的,都可以用爬虫实现

可以参考以下链接,还有很多好玩的~

利用爬虫技术能做到哪些很酷很有趣很有用的事情?

爬虫的本质是什么?

  简单来讲就是模仿浏览器来打开网页

  那我们应该如何模仿浏览器呢?

  我们首先应该要知道"浏览器是怎么打开网页?"

  一旦我们知道浏览器是怎么打开网页的,那么我们可以通过同样的手段来模拟浏览器

   大家有兴趣的话可以看看如下文章

  在浏览器地址栏输入一个URL后回车,背后会进行哪些技术步骤?

  从输入 URL 到页面加载完成的过程中都发生了什么事情?

 

python爬虫从入门到精通-系列教程

标签:开始   经验   网络爬虫   抓取数据   indexer   是什么   本质   整理   mat   

原文地址:https://www.cnblogs.com/qq865581497/p/11567276.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!