码迷,mamicode.com
首页 > Web开发 > 详细

Jsoup提取文本时保留标签

时间:2016-04-10 21:18:07      阅读:1764      评论:0      收藏:0      [点我收藏+]

标签:

使用Jsoup来对html进行处理比较方便,你可能会用它来提取文本或清理html标签。如果你想提取文本时保留标签,可以使用Jsoup.clean方法,参数为html及标签白名单:

Jsoup.clean(html, new Whitelist().addTags("img").addAttributes("img", "data-original", "align", "alt", "height", "src", "title", "width")
                .addProtocols("img", "src", "http", "https"));//只能是http/https开头的绝对地址

但是使用时发现对于html片段,上面返回的结果可能令人意想不到。

另外的方式为将标签进行urlencode转换:

Document doc = Jsoup.parseBodyFragment(partHtml);
        Elements elements = doc.select("img");
        for (Element element : elements) {
            //将标签X替换为<X>与</X>
            element.replaceWith(new TextNode(element.toString(),""));
        }

之后再使用doc.text()或Jsoup.clean提取出文本,注意text会将p等标签转为空格而不是换行符,而clean默认会转为换行符。

Jsoup提取文本时保留标签

标签:

原文地址:http://www.cnblogs.com/makefile/p/5375352.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!