标签:
以下仅仅是自己一些粗浅认识、欢迎补充指正、欢迎进群交流!
掌握一半便能够熟练的开发爬虫玩了。自己正在努力中...
1、掌握java、尤其编程网络部分;李刚的java基础至少看了三遍以上;
2、熟悉html、js、 ajax、firedebug
3、网页去重、找到网站特点
4、分布式
5、多线程
6、一种关系型数据库mysql/oraclelserver/mybatis
7、正则表达式、css selector、 xpath
8、DNS cache
9、TCP/IP/Http协议tp2.010、web登录协议
10、 SSO、OAuth原理
11、反爬策略
12、熟悉httpClient、okhttp3...
13、 熟悉一些提取工具、jsoup、selenim WebDriver...
14、搜索技术。熟悉Lucene/Nutch/Heritrix/solr/elastic-search/
15、熟悉XML、JSON、SOAP协议;
16、mongodb、 redis、 hbase、 hadoop
17、文本分析、机器学习、数据挖掘、自然语言处理[NLP]
18、完成网页、微博、微信、贴吧、论坛等数据信息的精准抽取
19、RPC协议
20、netty、NIO
21、HTMLUnit、PhantomJS、SlimerJS 、CasperJS
22、代理部署方案:http/socks
23、nginx、 squid、jetty
24、破解ios
25、验证码、ocr、tess4j
爬虫相关工具整理
1、Phantomjs
2、berserkJS(基于Phantomjs的改进版本)
3、SlimerJS
4、CasperJS
5、selenium
标签:
原文地址:http://www.cnblogs.com/liinux/p/5559141.html