码迷,mamicode.com
首页 > 编程语言 > 详细

java 获取HTML文本IMG标签的src地址

时间:2015-10-12 17:20:57      阅读:1946      评论:0      收藏:0      [点我收藏+]

标签:

public static void main(String[] args) {
        String htmlText = "<p>的风格发的,多大的<img src=\"https://123.10.3.22:8080/File/uploadPictrue/20150917151201008.png\" /><img src=\"../File/uploadPic/2015/9/17/15/1118.png\" /></p>";
        GetHtmlImageSrcList(htmlText);
        System.out.println(GetHtmlText(htmlText));
    }
    
    /**
     * 获取HTML文件里面的IMG标签的SRC地址
     * @param htmlText 带html格式的文本
     */
    public static List<String> GetHtmlImageSrcList(String htmlText)   
    {
        List<String> imgSrc = new ArrayList<String>();
        Matcher m = Pattern.compile("src=\"?(.*?)(\"|>|\\s+)").matcher(htmlText);
        while(m.find())
        {    
            imgSrc.add(m.group(1));
        }
        return imgSrc;
    }
    
    /**
     * 去掉所有的HTML,获取其中的文本信息 
     * @param htmlText
     * @return
     */
    public static String GetHtmlText(String htmlText)   
    {
        String regEx_html = "<[^>]+>"; // 定义HTML标签的正则表达式 
        Pattern p_html = Pattern.compile(regEx_html, Pattern.CASE_INSENSITIVE);  
        Matcher m_html = p_html.matcher(htmlText);
        htmlText = m_html.replaceAll(""); // 过滤HTML标签
        return htmlText;
    }

 

java 获取HTML文本IMG标签的src地址

标签:

原文地址:http://www.cnblogs.com/ButterFuture/p/4872007.html

(0)
(1)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!