今天我来带领大家一起学习编写一个网络爬虫!其实爬虫很简单,没有想象中那么难,也许所有学问都是这样,恐惧源自于无知。废话不多说,现在开始我们的爬虫之旅吧。
我们时常听说编程大牛嘴边一直念叨着“网络爬虫“,那网络爬虫究竟是何方神圣呢?
网络爬虫能够模仿用户浏览网页,并将所想要的页面中的信息保存下来。有些同学不禁要问:“我自己浏览网页,可以手动将数据保存下来啊,为何要写个程序去爬取数据呢?“道理其实很简单,程序能够在短时间内访问成千上万的页面,并且在短时间内将海量数据保存下来,这速度可远远超越了人工手动浏览网页的速度。
爬取网页的过程大致分成两个步骤:
//设置需要爬取页面的URL
URL url = new URL("http://www.baidu.com");
//建立连接,获取URLConnection对象
URLConnection connection = url.openConnection();
//将URLConnection对象转换成HttpURLConnection对象
HttpURLConnection httpConnection = (HttpURLConnection) connection;
httpConnection.setDoOutput(true);
//获取输出流
OutputStreamWriter out = new OutputStreamWriter(httpConnection.getOutputStream(), "8859_1");
//刷新输出流,然后关闭流
out.flush();
out.close();
//一旦发送成功,用以下方法就可以得到服务器的回应:
String sCurrentLine = "";
String sTotalString = "";
//ResponseCode==200表示请求发送成功! if(httpConnection.getResponseCode()==200){
//获取服务器返回的输入流
InputStream l_urlStream = httpConnection.getInputStream();
BufferedReader l_reader = new BufferedReader(new InputStreamReader(l_urlStream));
while ((sCurrentLine = l_reader.readLine()) != null) {
sTotalString += sCurrentLine + "\r\n";
}
System.out.println(sTotalString);
return true;
}
//通过Jsoup获取HTML文本
Document doc = Jsoup.connect("http://10.20.100.5:8080/").get();
//获取HTML中所有的tbody标签
Elements tbodys = doc.getElementsByTag("tbody");
//获取tbody标签中所有的td标签
Elements tds = tbodys.get(1).getElementsByTag("td");
//获取td中的文本
tds.get(0).html();
看完这些相信大家对于网络爬虫已经入门了,能够实现一个最简单的爬虫程序,接下来我会带领大家一步步深入,实现一个更加智能、功能更加强大的爬虫!
如果各位还有什么问题,可以留言,我会尽力解答的。
原文地址:http://blog.csdn.net/u010425776/article/details/46136197