标签:
基本上使用python语言完成
一、抓取列表页详细页
授权(API)&未授权(爬虫)普通抓取&需登录
二、html解析1. BeautifulSoup2. 正则
三、文本分析&自然语言处理
四、性能优化1. 反抓取屏蔽 http代理2. 性能优化多线程抓取
互联网数据的挖掘和分析
原文地址:http://www.cnblogs.com/gaotianpu/p/4848635.html