首页 > 编程语言 > 详细

java爬取百度首页logo

时间：2015-03-07 11:29:46 阅读：137 评论：0 收藏：0 [点我收藏+]

标签：

两个方法
- 一个获得Url的网页源代码getUrlContentString，另外一个从源代码中得到想要的地址片段，其中需要用到正则表达式去匹配
得到网页源代码的过程：
- 地址为string，将地址转换为java中的url对象
- url的openConnection方法返回urlConnection
- urlConnection的connect方法建立连接
- 新建一个InputStreamReader对象，其中InputStreamReader的构建需要InputStream输入流对象，而URLConnection的getInputStream方法则返回输入流对象，所以可以连接起来
- 然后利用建立好的InputStreamReader对象建立BuffereReader对象
- 从bufferedreader对象中按行读入网页源码，追加到result字符串中，result字符串即为网页源代码字符串
logo地址匹配
- Pattern pattern = Pattern.compile(patternString);
  - java.util.regex：java类库包，用正则表达式所定义的模式对字符串进行匹配
    它包括两个类：Pattern和Matcher 。
    Pattern：创建匹配模式字符串。
    Matcher：将匹配模式字符串与输入字符串。
  - pattern的compile方法：将指定的字符编译到模式中
- Matcher matcher = pattern.matcher(contentString);

java爬取百度首页logo

标签：

原文地址：http://www.cnblogs.com/keedor/p/4319960.html

踩

(0)

赞

(0)

举报

评论一句话评论（0）

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)

周排行

更多

友情链接

兰亭集智国之画百度统计站长统计阿里云 chrome插件新版天听网

关于我们 - 联系我们 - 留言反馈

© 2014 mamicode.com 版权所有联系我们:gaon5@hotmail.com

迷上了代码！