首页 > 其他好文 > 详细

网络爬虫百度新闻标题及链接爬取

时间：2020-05-03 10:59:32 阅读：207 评论：0 收藏：0 [点我收藏+]

标签：打开 exce dem lte ext 爬取 http raise html

1.主题：百度新闻爬取

2.

python代码：

　　　　

　　　　import requests
　　　　from bs4 import BeautifulSoup
　　　　def getHTMLText(url):
　　　　　　try:
　　　　　　　　r = requests.get(url,timeout=30)
　　　　　　　　r.raise_for_status()
　　　　　　　　r.encoding = r.apparent_encoding
　　　　　　　　return r.text
　　　　　　except:
　　　　　　　　return ""
　　　　def filllist(demo):
　　　　　　soup=BeautifulSoup(demo,"html.parser")
　　　　　　for i in soup.find_all("a"):
　　　　　　　　list1=i.attrs
　　　　　　　　print(i.text,end=‘ ‘)
　　　　　　　　print(list1[‘href‘])
　　　　def main():
　　　　　　url="http://news.baidu.com/"
　　　　　　demo=getHTMLText(url)
　　　　　　getHTMLText(url)
　　　　　　filllist(demo)
　　　　main()

代码完成之后就是这个样子

技术图片

3.问题：在代码编写过程中，我遇到了很多问题，比如一开始用find函数总是出现错误，我也是看大家的代码才找到正确的打开方式。

　　　　另外开始是这样的，一下子所有的属性都打出

　　　　技术图片

　　我的本意是只要链接的那部分属性，经过反复看视频和多次的实验终于解决了这个难题，形成了开头那个样子。很开心！

　　但是开头和结尾还是有多余的部分不知道怎么解决，求助！

　　　　技术图片

网络爬虫百度新闻标题及链接爬取

标签：打开 exce dem lte ext 爬取 http raise html

原文地址：https://www.cnblogs.com/732jbw/p/12820719.html

踩

(0)

赞

(0)

举报

评论一句话评论（0）

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)

周排行

更多

友情链接

兰亭集智国之画百度统计站长统计阿里云 chrome插件新版天听网

关于我们 - 联系我们 - 留言反馈

© 2014 mamicode.com 版权所有联系我们:gaon5@hotmail.com

迷上了代码！