码迷,mamicode.com
首页 > 数据库 > 详细

Scrapy+BeautifulSoup+MongoDB 高性能数据采集方案(Chapter 1st)

时间:2017-05-14 23:46:34      阅读:555      评论:0      收藏:0      [点我收藏+]

标签:成功   nop   创建   bom   scrapy   soft   obj   dir   art   

运行环境 CentOS7.3 + Python2.7 + Scrapy1.3 + MongoDB3.4  + BeautifulSoup4.6
编程工具 PyCharm + Robomongo + Xshell

请确保你的 python版本为2.7.5以上 版本
强烈推荐直接【翻 墙 安 装】,简单轻松 yum install gcc libffi
-devel python-devel openssl-devel pip install scrapy
如果提示以下错误 AttributeError:
module object has no attribute OP_NO_TLSv1_1 说明你的 Twisted 版本过高,请执行 pip install Twisted==16.4.1

然后再安装以下内容 pip install "ScrapyMongoDB" pip install beautifulsoup4 pip install pymongo 然后执行 scrapy startproject fusnion 就可以创建一个名为 funsion 的项目 附录A:Scrapy Shell 调试 Linux 命令行下输入(以本站点为例) scrapy shell http://www.cnblogs.com/funsion/ 进入交互式shell,输入以下内容
>>> from bs4 import BeautifulSoup >>> soup = BeautifulSoup(response.body) >>> print soup.title 如果能输出 <title>Funsion Wu - 博客园</title> 则代表成功 附录B:参考文档 Scrapy官方中文文档 http://scrapy-chs.readthedocs.org/zh_CN/latest/index.html BeautifulSoup 中文手册 http://www.crummy.com/software/BeautifulSoup/bs4/doc/index.zh.html Scrapy Mongo 说明文档 https://github.com/noplay/scrapy-mongodb 附录C:mongodb安装方法 tar /usr/local/src/mongodb-linux-x86_64-rhel62-3.4.4.tgz cd /usr/local/src/mongodb-linux-x86_64-rhel62-3.4.4 mkdir -p /data/{mongodb_data,mongodb_log} /usr/local/src/mongodb-linux-x86_64-rhel62-3.4.4/bin/mongod --dbpath=/data/mongodb_data --logpath=/data/mongodb_log/mongodb.log --logappend --fork & ln -s /usr/local/src/mongodb-linux-x86_64-rhel62-3.4.4/bin/mongo /usr/local/bin/mongo 编辑/etc/rc.local,加入下述代码然后再保存即可。 /usr/local/src/mongodb-linux-x86_64-rhel62-3.4.4/bin/mongod --dbpath=/data/mongodb_data --logpath=/data/mongodb_log/mongodb.log --logappend --fork &

Scrapy+BeautifulSoup+MongoDB 高性能数据采集方案(Chapter 1st)

标签:成功   nop   创建   bom   scrapy   soft   obj   dir   art   

原文地址:http://www.cnblogs.com/funsion/p/6854307.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!