码迷,mamicode.com
首页 > 其他好文 > 详细

Work Records

时间:2019-01-18 10:14:53      阅读:204      评论:0      收藏:0      [点我收藏+]

标签:技术   hdf   doc   records   src   上传   sso   训练   rds   

1. 设计并实现large scale, distributed deep learning inference platform

API Server, CLI (FLask, Mysql)

  1. 接入公司CAS,实现用户鉴权 (CAS SSO)

ModelZoo (Flask, OS, HDFS)

  1. 设计并实现ModelZoo,接收用户上传并转换好的模型(ONNX -> TensorRT), 进行模型的版本控制,并存储到TOS,HDFS
  2. 测试Tfserving
    技术分享图片

Mesos

  1. 增加cAdvisor 的docker 性能监控 (metrics,grafana)

Marathon

  1. 修改Marathon,实现Docker Containerizer支持NV docker,实现资源的隔离

2. 改进并维护deep learning inference platform Arnold

  1. 访问数据库,得到训练任务的统计数据
    分不同的部门,集群,训练框架,任务状态
  2. 增加训练框架支持
  3. 制作report

3. RDMA性能监控

  1. 新机器加入集群
  2. 测试RDMA通信是否正常
  3. 部署监控服务,保证RDMA网络正常

Work Records

标签:技术   hdf   doc   records   src   上传   sso   训练   rds   

原文地址:https://www.cnblogs.com/lawrenceSeattle/p/10285715.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!