标签:数据 com ring 字符串 file document text 解析 lis
parse():解析HTML和XML,返回Documet对象
重载方法
timeoutMillis超时时间
获取的路径就是对应的HTML文档,这个HTML文档只不过是在浏览器上被解析成用户看到的界面。真实的数据还是代码
常用于HTML爬虫程序
例如比价网:慢慢买
主要用来获取Element对象(document继承了node的下的element对象,能获取任意的Element对象)
上面的倒数三个方法)
getElementById?(String id):根据id属性值,获取唯一的element对象
getElementsByTag?(String tagName):根据标签名称,获取元素对象集合
getElementsByAttribute?(String key):根据属性名称,获取元素对象集合
getElementsByAttributeValue?(String key, String value):根据属性名称和属性值,获取元素对象集合
是Documet和Element的父类
标签:数据 com ring 字符串 file document text 解析 lis
原文地址:https://www.cnblogs.com/rijiyuelei/p/12404973.html