码迷,mamicode.com
首页 > 编程语言 > 详细

python网页抓取练手代码

时间:2016-12-10 14:00:20      阅读:177      评论:0      收藏:0      [点我收藏+]

标签:arch   last   前端   python3   sci   coder   break   core   方向   

from urllib import request
import html.parser

class zhuaqu(html.parser.HTMLParser):
    blogHtml = ""
    data = []
    flag = 0

    def getHtml(self):
        res = request.urlopen("http://www.cnblogs.com")
        self.blogHtml = res.read().decode(utf-8)

    def handle_starttag(self, tag, attrs):
        if(tag == "a"):
            for attr in attrs:
                if(attr[0] == "class" and attr[1] == "titlelnk"):
                    self.flag = 1
                    break
        else:
            pass
    def handle_data(self, data):
        if(self.flag == 1):
            self.data.append(data.strip())
            self.flag = 0
        else:
            pass

    def show(self):
        print(self.blogHtml)


zhua = zhuaqu()
zhua.getHtml()
zhua.feed(zhua.blogHtml)
for item in zhua.data:
    print(item)

运行结果

C:\Python33\python.exe C:/pythonHtmlParse/zhuaqu.py
团建活动之忆童年
闭包的总结(干货1)
Jetty源码学习-编译Jetty源码二三事
Cesium原理篇:Property
前端制作动画的几种方式(css3,js)
SQL Server-聚焦INNER JOIN AND IN性能分析(十四)
C# 中的委托和事件
Android中Activity运行时屏幕方向与显示方式详解
利用T4模板生成ASP.NET Core控制器的构造函数和参数
JavaScript的因为所以
css居中小结
SharedPreferences 的另一种场景的用法
python wordcloud 对电影《我不是潘金莲》制作词云
怎么调试lua性能
ElasticSearch 5学习——安装Elasticsearch、Kibana和X-Pack
SDWebImage源码解读_之SDWebImageDecoder
struts开发经验汇总
scikit-learn 梯度提升树(GBDT)调参小结
你该知道的-SQL里的这些新语法-函数
希望大牛加入,共同为项目智能化管理jar包而努力

Process finished with exit code 0

python网页抓取练手代码

标签:arch   last   前端   python3   sci   coder   break   core   方向   

原文地址:http://www.cnblogs.com/huangzelin/p/6155377.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!