码迷,mamicode.com
首页 > 编程语言 > 详细

python + Jquery,抓取西东网上的Java教程资源网址

时间:2018-06-15 20:05:28      阅读:169      评论:0      收藏:0      [点我收藏+]

标签:中文   pre   find   ems   没有   author   /usr   属性   []   

#!/usr/bin/env python
# -*- coding: utf-8 -*-
# @Date    : 2018-06-15 14:01:45
# @Author  : Chenjun (320316430@qq.com;)
# @Link    : http://example.org
# @Version : $Id$

from pyquery import PyQuery as pq

URL = http://xidong.net/File001/File_25266.html

lis = []
def get_resource_lis(URL):
    doc = pq(url=URL, encoding=utf-8)  #响应头部没有声明编码类型,需要手动说明,否则抓到的数据会中文乱码
    datas = doc(tr)   #通过网页检查发现资源放在表格的tr中
    resource_lis = datas.items() 
    return lis


def main():
    resource_lis = get_resource_lis(URL)
    for source in resource_lis:
        print(source.find(a).attr(href))  #取到每个tr中的a标签的href属性值,也就是我需要的地址

if __name__ == __main__: main()
#后续可以存储到非关系型数据库中
 

 

python + Jquery,抓取西东网上的Java教程资源网址

标签:中文   pre   find   ems   没有   author   /usr   属性   []   

原文地址:https://www.cnblogs.com/tarantino/p/9188728.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!