标签:来源 写入 爬取 like a标签 sele 签名 根据 str
python独有
优势:简单、便捷、高效 - 环境安装 需要将pip源设置为国内源 -需要安装:pip install bs4 bs4在使用时需要一个第三方库 pip install lxml
流程:
核心思想:可以将html文档转换成Beautiful对象,然后调用对象属性和方法进行html指定内容的定位和查找
- 层级选择器:
div .dudu #lala 空格表示下面好多级
div > p > a > .lala > 只能是下面一级
注意:select返回的永远是列表,可以通过下标提取指定的对象import requests from bs4 import BeautifulSoup url = ‘http://www.shicimingju.com/book/sanguoyanyi.html‘ # 自定义请求头信息 headers={ ‘User-Agent‘:‘Mozilla/5.0 (Windows NT 6.3; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.132 Safari/537.36‘ } page_text = requests.get(url=url,headers=headers).text # 数据解析 soup = BeautifulSoup(page_text,‘lxml‘) li_list=soup.select(‘.book-mulu > ul > li > a‘) # type(li_list[0]) bs4.element.Tag Tag类型的数据可以继续调用属性方法进行解析 f = open(‘./三国演义.txt‘,‘w‘,encoding=‘utf-8‘) for li in li_list: title = li.text # print(type(title)) conten_url =‘http://www.shicimingju.com‘ + li.attrs[‘href‘] content_page = requests.get(url=conten_url,headers=headers).text content_soup = BeautifulSoup(content_page,‘lxml‘) content = content_soup.select(‘.chapter_content‘)[0] # print(content.text) f.write(title+content.text+‘\n\n\n‘) print(title+‘ 已写入‘)
标签:来源 写入 爬取 like a标签 sele 签名 根据 str
原文地址:https://www.cnblogs.com/yuliangkaiyue/p/10001783.html