码迷,mamicode.com
首页 > 其他好文 > 详细

爬虫推荐的工具

时间:2017-09-08 16:26:09      阅读:227      评论:0      收藏:0      [点我收藏+]

标签:分布式计算   web   tom   hat   一个   机器   soup   测试   jieba   

爬虫推荐的工具:
pyspider,
BeautifulSoup
requests
scrapy
mongodb
redis
kafka.
re
pyV8:python执行js的插件
phatomjs:一个无界面的,可脚本编程的WebKit浏览器引擎。它原生支持多种web 标准:DOM 操作,CSS选择器,JSON,Canvas 以及SVG
selenium:是一个用于Web应用程序测试的工具。Selenium测试直接运行在浏览器中,就像真正的用户在操作一样。

一开始推荐学习框架,比如scrapy或者Pyspider

数据分析:
pandas
scikit-learn
spark.
ntlk
jieba

pandas主要是处理金融数据得力,scikit-learn用来进行机器学习,spark是分布式计算。nltk进行予以分析。jieba用来做中文分词。

爬虫推荐的工具

标签:分布式计算   web   tom   hat   一个   机器   soup   测试   jieba   

原文地址:http://www.cnblogs.com/davidwang456/p/7494890.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!