python学习路线

时间：2019-01-20 18:49:04 阅读：180 评论：0 收藏：0 [点我收藏+]

爬虫

1.基础知识：网站基本原理，html,python,多进程/多线程/协程等（必学）

2.HTML基础、网络请求模块：requests(必学)，urllib(可以了解)

3.需要了解一些常见的反爬策略以及对应的解决方案：常见的有IP频率限制，User-Agent、Referer、Origen验证，Cookie限制，动态加载及验证码等，

对应的处理手段有IP代理池，伪造Header,Cookie保存与处理（基础进阶）

4.网页分析提取：Beautifulsoup&Xpath(二选一)，正则表达式（必学）

5.动态执行JS，js加密以及Selenium，OCR识别或者打码平台（选学）

6.数据存储（文件读写、数据库、Excel/CSV模块等）（必学）

7.网络抓包分析（选学）

8.爬虫框架：Scrapy(选学),pyspider(选学)

9.分布式爬虫（选学）

数据分析与处理

1.基础知识：python（函数、模块、面向对象），正则表达式，JSON（必学）

2.上述爬虫相关：

·基础知识：网站基本原理，html,python,多进程/多线程/协程等（必学）

·HTML基础、网络请求模块：requests(必学)，urllib(可以了解)

·需要了解一些常见的反爬策略以及对应的解决方案：常见的有IP频率限制，User-Agent、Referer、Origen验证，Cookie限制，动态加载及验证码等，

对应的处理手段有IP代理池，伪造Header,Cookie保存与处理（基础进阶）

·网页分析提取：Beautifulsoup&Xpath(二选一)，正则表达式（必学）

·动态执行JS，js加密以及Selenium，OCR识别或者打码平台（选学）

·数据存储（文件读写、数据库、Excel/CSV模块等）（必学）

3.数据分析相关库：Pandas,Numpy,Scipy,结巴分析等（必学）

4.图表绘图与可视化：Matplotlip,词云（必学）

大数据（数据挖掘、机器学习）

1.基础知识：python（基础+进阶）（必学）

2.金融学、统计学、计量经济学、投资学（必学）

3.数据存储（文件读写、数据库、Excel/CSV模块等）（必学）

4.数据分析相关库：Pandas,Numpy,Scipy,结巴分词（必学）

5.图表绘图与可视化：Matplotlip等（必学）

6.机器学习相关模型知识：朴素贝叶斯、决策树、Logistic回归、线性回归、KNN算法、SVM、

Boosting、聚类、推荐系统、pLSA、LDA、GDBT、Regularization、异常检测、EM算法、Apriori、

FP Growth等（必学）

7.机器学习相关库：sklearn（必学）、keras、statsmodels、tensorflow（选学）

原文地址：https://www.cnblogs.com/hankleo/p/10295656.html

踩

(0)

评论一句话评论（0）

分享档案

更多>

周排行