标签:分布式计算 web tom hat 一个 机器 soup 测试 jieba
爬虫推荐的工具:
pyspider,
BeautifulSoup
requests
scrapy
mongodb
redis
kafka.
re
pyV8:python执行js的插件
phatomjs:一个无界面的,可脚本编程的WebKit浏览器引擎。它原生支持多种web 标准:DOM 操作,CSS选择器,JSON,Canvas 以及SVG
selenium:是一个用于Web应用程序测试的工具。Selenium测试直接运行在浏览器中,就像真正的用户在操作一样。
一开始推荐学习框架,比如scrapy或者Pyspider
数据分析:
pandas
scikit-learn
spark.
ntlk
jieba
pandas主要是处理金融数据得力,scikit-learn用来进行机器学习,spark是分布式计算。nltk进行予以分析。jieba用来做中文分词。
标签:分布式计算 web tom hat 一个 机器 soup 测试 jieba
原文地址:http://www.cnblogs.com/davidwang456/p/7494890.html