码迷,mamicode.com
首页 > 其他好文 > 详细

今日架构工程师

时间:2017-01-14 12:44:34      阅读:211      评论:0      收藏:0      [点我收藏+]

标签:字段   颜色   global   log   多个   dcl   修改   class   url   

 

1 0-对db单独写一个类,却对proxy不单独设类,不公平!
2 1-情景
3     python-scrapy-proxy+ADSL
4     grab-AMZglobalSite:reviews,ranking,.......
5     当前代码结构:dbTool.py metaSpider.py  reviewsSider.py,rankingSider.py,......
6         在metaSpider.py类中实现dbTool.py类(从db获取下一个grab-url),def proxy1(),def proxy2()(多个处理代理的方法),在“一线实现具体采集业务”的xyzSider.py中实现metaSpider.py类
7 2-tmpSolution
8     "是啊,我也想把proxy搞出去啊,可是目前写不出来啊"

 

 

 1 0-这个字段加不加?
 2 1-情景
 3     AMZglobalSite商品详情页-grab评分与当前总评分/4分比较得出差评,将采集软件切换到python,进入url是通过站点(uk,fr)+asin,php分析采集数据,给email至运营订阅者。
 4     
 5     在用采集软件的同学处理是未发现一个现象“如phone case 商品页的商品主体区域的右上角,不同颜色的商品可能是不同的asin,此外有size属性的商品不同size的asin可能也是不同的,而评论区的reviews是这些商品reviews的集合,而不仅仅是page-url中的asin”
 6     上述现象进一步导致给运营订阅者的email中的“差评用户id-订单id-asin”三者不匹配
 7     
 8     python同学将单个page-url中的每一条reviews的asin均存入数据库,新加‘new-asin’字段。
 9     因为‘new-asin’才是和每一条reviews准确对应的‘asin’,导致php同学将要修改grab-data的分析脚本和发送email相关的脚本。
10     
11 2-tmpSolution
12 
13     db不新加字段,php代码不修改:在python 写入数据库的入口过滤掉reviews-asin与pagre-url-asin不同的数据,不入库,以此来保证入库数据的准确性和避免oldClode的修改。

 

今日架构工程师

标签:字段   颜色   global   log   多个   dcl   修改   class   url   

原文地址:http://www.cnblogs.com/yuanjiangw/p/6284930.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!