java 爬虫

时间：2018-09-02 12:31:09 阅读：195 评论：0 收藏：0 [点我收藏+]

标签：表单 htm info 项目需求语法规则 eva -- java爬虫 code

由于项目需求，综合了几种考虑方案，准备使用java 爬虫进行数据的获取，不用自己去费劲的想逻辑的实现

使用java爬虫之前，我们必须要掌握的知识：

　　　　　　　　　1.　对前端HTML的元素有一定的认识

　　　　　　　　　2.　使用httpclient

　　　　　　　　　3.　jsoup 工具进行HTML的解析判断

　　　　　　　　　4.　能够使用一款网络抓包工具

抓包工具的使用请参考：https://www.cnblogs.com/miantest/p/7289694.html

jsoup 的api的地址：http://www.open-open.com/jsoup/attributes-text-html.htm -->语法规则只要会HTML元素属性，jquery,javascript 就会玩它

　　介绍几个常用的吧：　　

1.将抓取到的html文本转为JSOUP 可操作的Document

Document doc=Jsoup.parse(你的html文本);

2.select 元素的使用（有很多哦）：注意点是只有属性才会被[]括起来，都可以进行混合使用的如select("div#id")

doc.select("a[target][title]")  -------> 匹配 a 标签下的 带有target 和 title  属性的标签

doc.select("div")   ------------>标签名查找，匹配所有带div标签的元素

doc.select("[title]") --------->属性查找，匹配属性带有title的元素

doc.select(".classname")-------->class名称查找，匹配class 名称为classname的元素

doc.select("#id")-----------> id查找，匹配id 名为id的元素

doc.select("[title=斗图网? RSS Feed]")-------->利用属性值进行查找，匹配title=斗图网? RSS Feed 的元素


3.获取属性值与文本的方法

element.attr("name") ------->获取元素中的name属性值

element.text()
element.html()----------->获取元素的文本内容

4.也有很多我们javascript操作元素的选择器

.getElementById(); -----id 查

.getElementsByClass(); -----class 查

.getElementsByAttribute();------属性查

.getElementsByAttributeValue(key, value) -------属性值查


..........等等，次数省略一万字

pom依赖导入：

　　　是为了让我们方便快捷的操作HTML中的元素

<dependency>
    <groupId>org.jsoup</groupId>
    <artifactId>jsoup</artifactId>
    <version>1.11.2</version>
</dependency>

httpclient :可以让我们便捷的进行post 与get 的请求方式

　　我们现在进行爬去人人网获取人人网的数据

　　　　　　----1.首先我们先进行人人网的模拟登陆

　　　　　　　(1),分析人人网的登录表单，可以看出来,内部有一个唯一ID loginForm ,action 地址，以及post的请求方式，以及我们需要的账号密码框

　　　　技术分享图片

　　　　　　(2).知道这个后，我们就可以通过java 代码的形式进行数据的抓取与提交，实现登录的效果

java 爬虫

标签：表单 htm info 项目需求语法规则 eva -- java爬虫 code

原文地址：https://www.cnblogs.com/iscys/p/9573298.html

踩

(0)

评论一句话评论（0）

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)

周排行