码迷,mamicode.com
首页 > 其他好文 > 详细

四、简单小爬虫

时间:2017-09-06 22:10:49      阅读:120      评论:0      收藏:0      [点我收藏+]

标签:ber   span   福建   defaults   台湾   run   小爬虫   字典   wan   

import requests
import xml.etree.cElementTree as EF
from xml.parsers.expat import ParserCreate

class DefaultsaxHandler(object):
    "sax处理器"
    def __init__(self,provinces):
        self.provinces=provinces
    #开始处理标签
    def start_element(self,name,attrs):
        if name!=map:
            name=attrs[title]
            number=attrs[href]
            self.provinces.append((name,number))
    #结束标签
    def end_element(self,name):
        pass
    #文本处理
    def char_data(self,text):
        pass


def get_province_entry(url):
    content=requests.get(url).content.decode("gbk")
    #查找开始结束位置,切片处理
    start=content.find(<map name="map_86" id="map_86")
    end=content.find(</map>)
    content=content[start:end+len(</map>)].strip()
    provinces=[]
    handler=DefaultsaxHandler(provinces)

    parse=ParserCreate()  #这是钩子函数
    #初始化分析器  (self.a=a)
    parse.StartElementHandler=handler.start_element
    parse.EndElementHandler=handler.end_element
    parse.CharacterDataHandler=handler.char_data
    #解析数据
    parse.Parse(content)
    #字典每一页的入口
    return provinces
provinces=get_province_entry("http://www.ip138.com/post")
print(provinces)

结果:

[(新疆, /83/), (西藏, /85/), (青海, /81/), (甘肃, /73/), (四川, /61/), (云南, /65/), (宁夏, /75/), (内蒙古, /01/), (黑龙江, /15/), (吉林, /13/), (辽宁, /11/), (河北, /50/), (北京, /10/), (天津, /30/), (陕西, /71/), (山西, /03/), (山东, /25/), (河南, /45/), (重庆, /40/), (湖北, /43/), (安徽, /23/), (江苏, /21/), (上海, /20/), (贵州, /55/), (广西, /53/), (湖南, /41/), (江西, /33/), (浙江, /31/), (福建, /35/), (广东, /51/), (海南, /57/), (台湾, /taiwang/), (澳门, /aomen/), (香港, /xianggang/)]

xml知识:http://www.runoob.com/python/python-xml.html

 

四、简单小爬虫

标签:ber   span   福建   defaults   台湾   run   小爬虫   字典   wan   

原文地址:http://www.cnblogs.com/pyrene/p/7487120.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!