敏捷冲刺三

时间：2018-11-17 19:18:38 阅读：107 评论：0 收藏：0 [点我收藏+]

敏捷冲刺三

Task1：团队TSP

团队任务	预估时间	实际时间	完成日期
搜索引擎相关内容了解	300	500	11-5
数据库表的创建	180	150	11-5
学院网站的爬取	210	--	--
建立数据库索引	190	--	--
代码测试	180	--	--
前端页面的设计	240	--	--
前后端的交互	300	--	--
搜索引擎测试	260	--	--

Task2：描述项目进展

成员	任务安排	预期任务量/小时
秦玉（组长）	安装Twisted18.7.0，pyOpenSSL18.0.0，python-dateutil2.7.3等，配置环境	180
陈晓菲	安装Twisted18.7.0，pyOpenSSL18.0.0，python-dateutil2.7.3等，配置环境	180
韩烨	前端模板的设计	180
姚雯婷	分析学院页面结构，并且编写爬虫代码	180
罗佳	完成团队TSP表格，完成第三次冲刺博客园，实践、初步编写代码	180
高天	完成团队TSP表格，完成第三次冲刺博客园，实践、初步编写代码	180

Task3：目前面临的困难

web服务器选择：Apache HTTP Server
前端框架 bootstrap
python框架：Django+vue.js
java框架：Spring+vue.js

雯婷：学校的网站太奇怪了，根本就不是正常的css页面，还在用老式的table，然后网上教的都是css页面的抓取选择，一个div都没有，所以我们的爬虫爬不到里面的数据。然后尝试了很多方法终于找到了一个方法从a里找到对应的href的内容并爬取下来：
   #1. 获取文章列表页中的文章url交给scrapy下载并进行解析
   #2. 获取下一页的url并交给scrapy进行下载,  下载完成后交给parse
   # 解析列表页中的所有文章url并交给scrapy下载后并进行解析
   post_urls = response.css("a::attr(href)").extract()
能爬取出页面，但是进不了回调函数里，就不能写入数据库，dont_filter=True这个方法就是不过滤，就可以进入回调函数了
yield Request(url=parse.urljoin(response.url, post_url), callback=self.parse_content,dont_filter=True)

雯婷：学校的网站太奇怪了，根本就不是正常的css页面，还在用老式的table，然后网上教的都是css页面的抓取选择，一个div都没有，所以我们的爬虫爬不到里面的数据。

晓菲：Twisted18.7.0安装不上，不能直接pip直接下载这个文件，要去对应的网页上下载好了直接安装

需要学习的内容太多了，一个插件就有很多的用法，还需要一个个去百度去查资料然后在一个一个的尝试自己再调用