jsoup 源码分析

时间：2020-04-27 09:48:16 阅读：65 评论：0 收藏：0 [点我收藏+]

jsoup 使用于从html 抽取出符合规则的标签，字符串，使用也非常简单。主要是两个函数， Jsoup.read(" html ") , Document.parse(" #id ")。

下面来分析下这两个函数：

1。 Jsoup.read( " html "), 是把html 字符串解析成 Element 对象，形成一棵Element 树，我们在Element 中可以看到 List<Node>, 以及parentNode, 这是构成树的基本元素。下面分析下形成树的过程，用到了 Parser, HtmlTreeBuilder ,HtmlTreeBuilderState, Token, Tokenier . 其中 HtmlTreeBuilder 用树的insert , HtmlTreeBuilderState 是html 当前解析的各种状态，（Initial, BeforeHead, InHead,BeforeBody,InBody ）,Token 是解析的各种对象，（StartTag,EndTag,Comment,） , Tokenier 进行Token 的解析。

Jsoup.read() --> Parser.parse () --> TreeBuilder.parse --> HtmlTreeBuilder.runParser() --> Tokensier.read() -- > TokeniserState.read()

HtmlTreeBuilder.runParser() --> process() --> HtmlTreeBuilderState.process() --> BeforeHead, BeforeBody. process -- > HtmlTreeBuilder.insert()

技术图片

这是在TreeBuilder 中关键的过程， tokeniser 把token 一个个读出来，process 把token 解析成Element, 插入到Document 中，形成树结构。

2。 Document.parse(" #id") : 这里面分两部，先把#id 字符串解析，形成Evaluator, 然后遍历Document 对象，把符合条件的Element 对象拿出来，形成List<Element> 返回。这里用到了Selector, QueryParser, Evaluator, TokenQueue( 第一步), NodeVisitor,NodeTraversor(第二步).

技术图片