爬虫-怎么爬静态网站

时间：2019-12-15 00:56:06 阅读：263 评论：0 收藏：0 [点我收藏+]

标签：关键词 html coding figure ppa url encoding table 定位

爬静态网站主要分为两部分：

爬静态网站的文字
爬静态网站的图片

[TOC]

爬文字

思路

用requests模块得到网站的HTML
用BeautifulSoup模块得到HTML的正则文本
用find或者find_all函数从正则文本中得到自己想要的
用repalce去除不需要的字符

源代码


# 使脚本可以识别中文
# 爬网站：http://www.hbrchina.org/

import requests
from bs4 import BeautifulSoup
# 调用需要的模块
if __name__ == '__main__':
	req = requests.get ('http://www.hbrchina.org/2019-02-18/7150.html')
   # 得到网站的HTML
	req.encoding = req.apparent_encoding
	#获取文本原来编码，使两者编码一致才能正确显示
	html = req.text
	bf = BeautifulSoup(html,'html.parser')
  # 把HTML文件转为正则文件（我的理解是文本文件）
	body = bf.body
	texts = body.find_all ('div',{'class':'article-content'})
  # 用find_all函数找到 这样的div文件，其class是article-content
	print(texts[0].text.replace('xa0'*8,'nn'))
  # 用replace函数提出所有的字符、空格等

可以看到的结果

技术图片

爬图片

思路

用requests模块得到网站的HTML
用BeautifulSoup得到HTML的正则文本
用find函数从正则文本中得到自己想要的，比如关键词img
利用urllib模块下载
利用for语句下载所有图片

源代码

1
2
3
4
5
6
7
8
9
10
11
12
13
大专栏  爬虫-怎么爬静态网站">14
15
16
17
18
19
20
21



import requests,urllib
from bs4 import BeautifulSoup

if __name__ == '__main__':
	rep = requests.get('https://darerd.github.io/2019/03/21/%E9%9A%8F%E6%83%B3-%E6%96%B0%E9%9B%B6%E5%94%AE%E4%BC%81%E4%B8%9A%E2%80%9C%E2%80%9C%E6%99%BA%E8%83%9C%E2%80%9D%E6%9C%AA%E6%9D%A5/')
	rep.encoding = rep.apparent_encoding
	html = rep.text
	bs = BeautifulSoup(html,'html.parser')
	img = bs.find_all('img')
	# 在bs正则文件中找到所有 带有img标签的结果
	x=1
	for i in img :
    # 利用for语句得到每一个图片的src
		imgsrc = i.get('src')
    # 从img中找到图片的下载链接，src
		urllib.request.urlretrieve(imgsrc,'./%s.jpg' %x)
    # 利用urllib模块去下载图片
		x=x+1
		print ('正在下载: %d '%x)