标签:
爬出和反爬出是矛与盾的关系,
进化史
1,java原生自带url类:url.getContent();
2,httpclient,
3,jsoup,htmlclean.
4,htmlunit,
5,se.
1-2只是原生http链接,
3,做了解析层面的支持,比如页面html清理,xpath支持;
4添加了js支持,这是很大的改进,不过由于各种衍生js库,支持不是很好.
5,se,这就是走了捷径.
好的反爬出机制,能识别在电脑另一头的是虫子还是人
,eg.阿里系网站机制 anti spider.:供应商,搜索食品,
短时间内连续翻页超过n页,n属于(8,20),自动让你登陆.
其实,阿里系也是有漏洞的.
标签:
原文地址:http://my.oschina.net/u/856051/blog/466966