码迷,mamicode.com
首页 > 编程语言 > 详细

python|爬虫东宫小说

时间:2019-03-18 01:19:35      阅读:197      评论:0      收藏:0      [点我收藏+]

标签:http   处理   推荐   get   小说   pytho   一段   str   url   

2k小说网爬取最近大火的《东宫》小说,借鉴之前看过的一段代码,修改之后,进行简单爬取。

from urllib import request
from bs4 import BeautifulSoup
url=‘https://www.fpzw.com/xiaoshuo/19/19210/‘
req=request.Request(url)
response=request.urlopen(req)
html=response.read()
soup=BeautifulSoup(html,‘html.parser‘)
soup_text=soup.find_all(‘dd‘)[4:]
f= open(‘Desktop/donggong.doc‘,‘w‘,encoding=‘utf-8‘)
for link in soup_text:
url2=‘https://www.fpzw.com/xiaoshuo/19/19210/‘+link.a.get(‘href‘)
req2=request.Request(url2)
response2=request.urlopen(req2)
html2=response2.read()
soup2=BeautifulSoup(html2,‘html.parser‘)
soup_text2=soup2.find(‘p‘,class_="Text").text
soup_text3=soup_text2.replace(‘东宫最新章节‘,‘‘)
soup_text3=soup_text3.replace(‘2k小说网欢迎您!本站域名:"2k小说"的完整拼音fpzw.com,很好记哦!www.fpzw.com 好看的小说‘,‘‘)
soup_text3=soup_text3.replace(‘强烈推荐:‘,‘‘)
f.write(soup_text3)
f.write(‘\n\n‘)
f.close()

爬取的结果没进行精细处理,后续待优化。

python|爬虫东宫小说

标签:http   处理   推荐   get   小说   pytho   一段   str   url   

原文地址:https://www.cnblogs.com/susuye/p/10549737.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!