四、简单小爬虫

时间：2017-09-06 22:10:49 阅读：120 评论：0 收藏：0 [点我收藏+]

标签：ber span 福建 defaults 台湾 run 小爬虫字典 wan

import requests
import xml.etree.cElementTree as EF
from xml.parsers.expat import ParserCreate

class DefaultsaxHandler(object):
    "sax处理器"
    def __init__(self,provinces):
        self.provinces=provinces
    #开始处理标签
    def start_element(self,name,attrs):
        if name!=‘map‘:
            name=attrs[‘title‘]
            number=attrs[‘href‘]
            self.provinces.append((name,number))
    #结束标签
    def end_element(self,name):
        pass
    #文本处理
    def char_data(self,text):
        pass


def get_province_entry(url):
    content=requests.get(url).content.decode("gbk")
    #查找开始结束位置，切片处理
    start=content.find(‘<map name="map_86" id="map_86"‘)
    end=content.find(‘</map>‘)
    content=content[start:end+len(‘</map>‘)].strip()
    provinces=[]
    handler=DefaultsaxHandler(provinces)

    parse=ParserCreate()  #这是钩子函数
    #初始化分析器  （self.a=a）
    parse.StartElementHandler=handler.start_element
    parse.EndElementHandler=handler.end_element
    parse.CharacterDataHandler=handler.char_data
    #解析数据
    parse.Parse(content)
    #字典每一页的入口
    return provinces
provinces=get_province_entry("http://www.ip138.com/post")
print(provinces)

结果：

[(‘新疆‘, ‘/83/‘), (‘西藏‘, ‘/85/‘), (‘青海‘, ‘/81/‘), (‘甘肃‘, ‘/73/‘), (‘四川‘, ‘/61/‘), (‘云南‘, ‘/65/‘), (‘宁夏‘, ‘/75/‘), (‘内蒙古‘, ‘/01/‘), (‘黑龙江‘, ‘/15/‘), (‘吉林‘, ‘/13/‘), (‘辽宁‘, ‘/11/‘), (‘河北‘, ‘/50/‘), (‘北京‘, ‘/10/‘), (‘天津‘, ‘/30/‘), (‘陕西‘, ‘/71/‘), (‘山西‘, ‘/03/‘), (‘山东‘, ‘/25/‘), (‘河南‘, ‘/45/‘), (‘重庆‘, ‘/40/‘), (‘湖北‘, ‘/43/‘), (‘安徽‘, ‘/23/‘), (‘江苏‘, ‘/21/‘), (‘上海‘, ‘/20/‘), (‘贵州‘, ‘/55/‘), (‘广西‘, ‘/53/‘), (‘湖南‘, ‘/41/‘), (‘江西‘, ‘/33/‘), (‘浙江‘, ‘/31/‘), (‘福建‘, ‘/35/‘), (‘广东‘, ‘/51/‘), (‘海南‘, ‘/57/‘), (‘台湾‘, ‘/taiwang/‘), (‘澳门‘, ‘/aomen/‘), (‘香港‘, ‘/xianggang/‘)]

xml知识：http://www.runoob.com/python/python-xml.html

四、简单小爬虫

标签：ber span 福建 defaults 台湾 run 小爬虫字典 wan

原文地址：http://www.cnblogs.com/pyrene/p/7487120.html

踩

(0)

评论一句话评论（0）

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)

周排行