标签:com http blog class style div code size tar strong art
def getHtml(url): page = urllib.urlopen(url) html = page.read() page.close() return html
这么几行代码相信不用注释都能大概知道它的意思。
def getWeather(html): reg = ‘<a title=.*?>(.*?)</a>.*?<span>(.*?)</span>.*?<b>(.*?)</b>‘ weatherList = re.compile(reg).findall(html) return weatherList
其中reg是正则表达式,html是第一步获得的文本。findall的作用是找到html中所有符合正则匹配的字符串并存放到weatherList中。之后再枚举weatheList中的数据输出即可。
Python天气预报采集器 python网页爬虫,布布扣,bubuko.com
标签:com http blog class style div code size tar strong art
原文地址:http://www.cnblogs.com/yes123/p/3695369.html