标签:项目实战 .com 相同 存储 数据 正则 mamicode 技术 提取
一、爬虫项目
1、爬虫基础
a、网页上面会有相同的数据
b、去重处理
布隆过滤器哈希存储
c、标签匹配:
正则表达式beautiful soup或lxml这种标签提取库
d、动态内容
phantomjs
selenium
二、
Go语言之高级篇Beego框架之爬虫项目实战
原文地址:https://www.cnblogs.com/nulige/p/10386915.html