标签:
一、基本思路:
1.获取DTD、XSD数据的URLS(从谷歌搜索结果中获取)
2.打获URLS获取DTD、XSD文件(期间去除不能打开连接的,对错误的数据进行分析、对数据归类)
二、获取DTD、XSD数据的URLS
所谓的DTD、XSD数据的URLS即为红线标识的
分析不难找出一下规律:(搜索的结果都在id=‘search‘的div里,每一个URL都在class=‘g‘的div里class=‘r‘的h3里的a的href属性里)
基本代码如下(用到第三方模块BeautifulSoup):
标签:
原文地址:http://www.cnblogs.com/codevs/p/5068752.html