使用django+mysql+scrapy制作的一个小说网站

时间：2015-01-12 14:16:15 阅读：462 评论：0 收藏：0 [点我收藏+]

标签：

小说网站用的程序都是千篇一律的，jieqi + guanguang，无聊时间学习python+django，也做了一个小说网站，下面说一说做这个网站一些过程，

制作这种采集站，最要紧的是要有一个好的采集器，在python的世界里面，爬取网页真是小菜一碟，urllib urllib2 requests 都是神器，不过为了追求程序的稳定性和易用性，我采用了scrapy这个第三方采集库

在windows下安装这个采集库有点麻烦，给大家推荐一个网站 http://www.lfd.uci.edu/~gohlke/pythonlibs/ 这里面有lxml 等在win品台上不好安装的库

采集小说无非就小说名，作者，分类，介绍，还有各个章节的内容，这个使用scrapy非常容易实现，为了使热门的小说能够更快的采集和更新，我分别做了2个爬虫，一个爬虫从采集站的列表页采集小说，一个爬虫专门用于指定的单本小说的采集，这样，后台设置的热门的主推小说能够在第一时间里采集到，两个爬虫都是每隔3分钟就循环采集一次，使用supervisor保证爬虫24h在线。

　　采集内容的过滤，依靠的是xpath和re相互扶助配合，过滤掉采集站的url，和一些与采集站有关的内容，保证采集到的内容是干净的，

django这方面我觉得就没有什么多说的了，应为一个小说站的逻辑是非常简单的

在部署方面使用的是supervisor gunicorn nginx 配合起来还是很快的

还有使用了fabric 进行远程部署，因为小说站基本上都是国外的vps，ssh连接是很慢的

易读中文网这就是小站，

最悲剧的是买域名的时候没有注意到，这个域名原来是干菠菜的，亏死我了，不知道会不会有收录，哎慢慢等吧！

使用django+mysql+scrapy制作的一个小说网站

标签：

原文地址：http://www.cnblogs.com/shoufashu/p/4218146.html

踩

(0)

评论一句话评论（0）

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)

周排行