Python网络爬虫的基本流程与准备

时间：2020-11-19 12:54:57 阅读：10 评论：0 收藏：0 [点我收藏+]

标签：rgb xlwt bs4 path 通过分析 from 获取 request

基本流程：

准备工作：（通过浏览器查看分析目标网页，学习编程基础规范）

获取数据：（通过HTTP库向目标站点发起请求，请求可以包含额外的header等信息，如果服务器能正常响应，会得到一个Response，便是所要获取的页面内容）

解析内容：（得到的内容可能是HTML、json等格式，可以用页面解析库、正则表达式等进行解析）

保存数据：（保存形式多样，可以存为文本，也可以保存到数据库，或者保存特定格式的文件）

案例网址： https://movie.douban.com/top250

爬虫初识：

按照一定的规则，自动抓取互联网信息的程序或者脚本，只要能通过浏览器访问的数据基本都可以通过爬虫获取
模拟浏览器打开网页，获取网页中我们想要的那部分数据

爬虫常用的工具包：

# 解析网页
from bs4 import BeautifulSoup as bf

# 正则表达式
import re

# Excel表格操作
import xlwt

# 获取URL得到html文件
import urllib.request as req

# 进行SQLite数据库操作
import sqlite3

Python路径：

# 相对路径，../表示定位到上一级目录
path1 = "../excel/hello.txt"

# 相对路径，当前目录下寻找
path2 = "hello.txt"

# 绝对路径，r""表示不转义字符
path3 = r"C:\Users\a最简单\Desktop\hello.txt"

# 换成/也行，连转义字符都不用考虑了
path4 = "C:/Users/a最简单/Desktop/hello.txt"

Python网络爬虫的基本流程与准备

标签：rgb xlwt bs4 path 通过分析 from 获取 request

原文地址：https://www.cnblogs.com/zq-zq/p/13974713.html

踩

(0)

评论一句话评论（0）

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)

周排行