码迷,mamicode.com
首页 > 数据库 > 详细

使用django+mysql+scrapy制作的一个小说网站

时间:2015-01-12 14:16:15      阅读:462      评论:0      收藏:0      [点我收藏+]

标签:

小说网站用的程序都是千篇一律的,jieqi + guanguang,无聊时间学习python+django,也做了一个小说网站,下面说一说做这个网站一些过程,

制作这种采集站,最要紧的是要有一个好的采集器,在python的世界里面,爬取网页真是小菜一碟,urllib urllib2 requests 都是神器,不过为了追求程序的稳定性和易用性,我采用了scrapy这个第三方采集库

在windows下安装这个采集库有点麻烦,给大家推荐一个网站 http://www.lfd.uci.edu/~gohlke/pythonlibs/ 这里面有lxml 等在win品台上不好安装的库

采集小说无非就 小说名,作者,分类,介绍,还有各个章节的内容,这个使用scrapy非常容易实现,为了使热门的小说能够更快的采集和更新,我分别做了2个爬虫,一个爬虫从采集站的列表页采集小说,一个爬虫专门用于指定的单本小说的采集,这样,后台设置的热门的主推小说能够在第一时间里采集到,两个爬虫都是每隔3分钟就循环采集一次,使用supervisor保证爬虫24h在线。

  采集内容的过滤,依靠的是xpath和re相互扶助配合,过滤掉采集站的url,和一些与采集站有关的内容,保证采集到的内容是干净的,

django这方面我觉得就没有什么多说的了,应为一个小说站的逻辑是非常简单的

在部署方面使用的是supervisor gunicorn nginx 配合起来还是很快的

还有使用了fabric 进行远程部署,因为小说站基本上都是国外的vps,ssh连接是很慢的

 易读中文网 这就是小站,

最悲剧的是买域名的时候没有注意到,这个域名原来是干菠菜的,亏死我了,不知道会不会有收录,哎慢慢等吧!

 

使用django+mysql+scrapy制作的一个小说网站

标签:

原文地址:http://www.cnblogs.com/shoufashu/p/4218146.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!