标签:com inpu int reader get lin prope 浏览器 http
1,定位
IP对机器的定位
端口对软件的定位(65535)
URL对软件上每一份资源的定位
2,TCP和UDP
TCP 安全,性能低 ①ServerSocket②Socket
UDP不安全,性能高 ①DatagramSocket②DatagramPacket
3,爬虫
从网络上抓资源
一,普通的直接抓
* 网络爬虫及其原理
* 1,获取URL
* 2,下载资源
* 3,分析数据
* 4,处理数据
URL url=new URL("https://www.dianping.com");
InputStream is=url.openStream();//打开流
//读
BufferedReader br=new BufferedReader(new InputStreamReader(is,"UTF-8"));
String data=null;
while(null!=(data=br.readLine())){
System.out.println(data);//输出到控制台
}
br.close();
二,抓不到的,模拟浏览器抓
URL url=new URL("https://www.dianping.com");
HttpURLConnection conn=(HttpURLConnection)url.openConnection();
conn.setRequestMethod("GET");//设置请求响应机制
conn.setRequestProperty( "User-Agent","Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/64.0.3282.140 Safari/537.36 Edge/17.17134, value");
//2,下载资源
BufferedReader br=new BufferedReader(new InputStreamReader(conn.getInputStream(),"UTF-8"));
String data=null;
while(null!=(data=br.readLine())){
System.out.println(data);
}
br.close();
标签:com inpu int reader get lin prope 浏览器 http
原文地址:https://www.cnblogs.com/code-fun/p/11249949.html