标签:学习 专业 线程 进阶 成就感 htm 正则表达式 http 等等
因为工作需要经常收集一些数据,我就想通过学爬虫来实现自动化完成比较重复的任务。
目前我Python的状况,跟着敲了几个教程,也算是懂点基础,具体比较深入的知识,是打算从做项目中慢慢去了解学习。
我是觉得如果一开始就钻细节的话,是很容易受到打击而放弃的,做点小项目让自己获得点成就感路才更容易更有信心走下去。
反正遇到不懂的就多查多问就对了。
知乎上看了很多关于入门Python爬虫的问答,给自己总结出了大概的学习方向。
基础:
HTML&CSS,JOSN,HTTP协议(这些要了解,不太需要精通)
Request库(重点,用来进行网络提交和爬取HTML页的)
中级:
BeautifulSoup(用来解析HTML页的),RE(正则表达式)
进阶:
Scrapy(专业的爬虫框架),多进程,多线程,分布式,数据库存储等等。
进阶的方向我也没太深入去了解,只是个大概,等学了基础和中级后再去了解吧。
教程的话,我就先看嵩天老师开的《Python网络爬虫与信息提取》慕课,他课程环节和我要学习的方向很吻合。
其实没说到的知识,我再自己去网上恶补一下吧。
标签:学习 专业 线程 进阶 成就感 htm 正则表达式 http 等等
原文地址:http://www.cnblogs.com/kwun/p/7560701.html