码迷,mamicode.com
首页 > 编程语言 > 详细

Python 初试爬虫博客园

时间:2018-12-12 17:40:01      阅读:243      评论:0      收藏:0      [点我收藏+]

标签:nload   inf   load   控制   read   bsp   ons   程序   分享   

自己使用的是windows系统,所有的介绍都是按照windows进行

一、安装Python和beautifulsoup

  Python下载地址:Python

  beautifulsoup 安装方法:

    下载地址:beautifulsoup 

    解压到python根目录下,然后在控制台使用 pip install beautifulsoup4 进行安装

二、开始写爬虫程序  

技术分享图片
 1 from bs4 import BeautifulSoup
 2 from urllib import request
 3 
 4 url="https://www.cnblogs.com/" 
 5 response=request.urlopen(url)
 6 html=response.read();
 7 html=html.decode("utf-8")
 8 bs=BeautifulSoup(html,"html.parser")
 9 for item in bs.find_all("div",class_="post_item"):
10     title=item.find(h3)
11     tuijian=item.find("div",class_="diggit")
12     touxiang=item.find("img",class_="pfs")
13     data=item.find("p",class_=post_item_summary)
14     user=item.find("div",class_="post_item_foot")
15     print("推荐:"+tuijian.text.strip()+"\r\n头像Url:"+touxiang.get(src)+"\r\n标题:"+title.text,"\r\n内容:"+data.text)
View Code

三、最终的结果

技术分享图片

 

自己的一小步就是Python学习路上的一大步

Python 初试爬虫博客园

标签:nload   inf   load   控制   read   bsp   ons   程序   分享   

原文地址:https://www.cnblogs.com/mybk/p/10109151.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!