爬虫了解和准备

一、Jupyter notebook环境安装
二、爬虫介绍

一、Jupyter notebook环境安装

1、Anaconda 以及安装步骤

　　Anaconda指的是一个开源的Python发行版本，其包含了conda、Python等180多个科学包及其依赖项。因为包含了大量的科学包，Anaconda 的下载文件比较大（约 531 MB）。

　　下载地址：https://www.anaconda.com/distribution/

　　1）双击安装程序，如下图：

技术图片

　　2）同意协议，如下图：

技术图片

　　3）勾选"Just Me"，即只为我这个用户安装。为所有用户（All Users）安装，要求有管理员权限，除非被要求以管理员权限安装，否则不要以管理员身份安装。

技术图片

　　4）选择安装路径，注意，安装路径中不能有空格和中文。

技术图片

　　5）添加环境变量

技术图片

　　7）点击install开始安装，时间有点长，耐心等待

技术图片

　　8）完成后点击next，如下图

技术图片

　　9）点击Install Microsoft VSCode，如下图

技术图片

　　10）完成后点击next

技术图片

　　11）全部完成后，点击Finish，两个选项不要勾选，如下图

技术图片

　　12）配置环境变量

　　　　若上面安装过程中勾选了添加环境变量则可以跳过此步，若没有勾选则需要手动加，具体如下：

　　　　将安装目录anaconda3文件加入安装path；

　　　　将安装目录下的Scripts文件夹加入系统环境变量；

　　13）验证是否安装成功，找到安装程序，右击"Anaconda Prompt"，选择"更多 - > 以管理员身份运行"

　　　　技术图片

　　14）查看版本，输入conda list，可以查看已经安装的包名和版本号，如果结果可以正常显示，则说明安装成功，如下图

技术图片

　　15）查看版本，如下图

技术图片

2、使用Jupyter Notebook

　　Jupyter Notebook（此前被称为 IPython notebook）是一个交互式笔记本，支持运行 40 多种编程语言。

　　Jupyter Notebook 的本质是一个 Web 应用程序，便于创建和共享文学化程序文档，支持实时代码，数学方程，可视化和 markdown。用途包括：数据清理和转换，数值模拟，统计建模，机器学习等等。

　　Jupyter Notebook 有两种键盘输入模式。

　　　　- 编辑模式，允许你往单元中键入代码或文本；这时的单元框线是绿色的。

　　　　- 命令模式，键盘输入运行程序命令；这时的单元框线是灰色。

　　快捷键：

　　　　Shift+Enter : 运行本单元，选中下个单元

　　　　Ctrl+Enter : 运行本单元

　　　　Alt+Enter : 运行本单元，在其下插入新单元

　　　　Y：单元转入代码（code）状态

　　　　M：单元转入markdown状态

　　　　A ：在上方插入新单元

　　　　B：在下方插入新单元

　　　　X：剪切选中的单元

　　　　Shift+Tab : 显示帮助文档

　　　　Shift +V : 在上方粘贴单元

　　使用：以管理员身份打开终端，切换到一个目录下，输入以下命令，终端hung住，且自动打开浏览器窗口，浏览器中显示的文件根目录就是终端中执行命令所在的目录

　　新建一个Python 3 文件，后缀名为.ipynb（即ipython notebook），如下图　

二、爬虫介绍

1、爬虫相关概念

　　爬虫：通过编写程序，模拟浏览器上网，然后让其去互联网爬取数据的过程。

　　爬虫的分类：

　　　　- 通用爬虫；即将一整张页面进行数据爬取，搜索引擎抓取系统

　　　　- 聚焦爬虫；即将网页中局部内容进行爬取，与通用爬虫有关系，要先进行通用爬虫

　　　　- 增量式；只爬取最新更新的数据，或者说只爬取没有爬取过的数据

　　反爬机制：对应的应用载体是门户网站。

　　反反爬策略：对应的应用载体是爬虫程序。

　　robots.txt协议：我们遇到的第一个反爬机制（https://www.taobao.com/robots.txt），遵从或者不遵从，一个防君子，不妨小人的协议。

　　参考博客：https://www.cnblogs.com/bobo-zhang/p/9645024.html

2、回顾http/https

　　参考博客：https://www.cnblogs.com/bobo-zhang/p/9645715.html

3、抓包工具fiddler安装和配置

　　Fiddler是一个http协议调试代理工具，它能够记录并检查所有你的电脑和互联网之间的http通讯，设置断点，查看所有的进出Fiddler的数据。 Fiddler 要比其他的网络调试器要更加简单，因为它不仅仅暴露http通讯还提供了一个用户友好的格式。

　　1）双击安装程序，选择安装路径，如下图

技术图片

　　2）安装完成后关闭窗口，找到程序

技术图片

　　3）打开程序，点击"是"

技术图片

　　4）是否更新提示弹框，选择"No"，如下图

技术图片

　　5）点击菜单的"Tools -> Options"，如下图

技术图片

　　6）安装证书，如下图

技术图片

　　7）重启fiddler，清楚记录，我们可以在fiddler中查看，我们主要使用以下几个部分

技术图片

4、requests模块

　　参考博客：https://www.cnblogs.com/bobo-zhang/p/9680561.html

　　参考博客：https://www.cnblogs.com/bobo-zhang/p/9680673.html

5、bs4

　　参考博客：https://www.cnblogs.com/bobo-zhang/p/9682516.html

爬虫了解和准备

一、Jupyter notebook环境安装

1、Anaconda 以及 安装步骤

2、使用Jupyter Notebook

二、爬虫介绍

1、爬虫相关概念

2、回顾http/https

3、抓包工具fiddler安装和配置

4、requests模块

5、bs4

1、Anaconda 以及安装步骤