[关闭]
@chenyaofo 2018-09-04T07:55:47.000000Z 字数 2405 阅读 538

服务器使用约定

  1. 服务器账号请向管理员黄登邓泽帅申请。
  2. 所有账号分配之后请及时更改密码。
  3. 由于tensorflow本身的设计以及考量,其在运行时会占据所有的显存,即使什么东西都没有跑。可以参考这里解决。
  4. 服务器的空间问题日渐凸显,请各位同学可以协助管理员清理硬盘空间,将公用数据集全部存放至/home/datasets
  5. 所有Linux服务器将逐步docker化,此后服务器上将不再安装CUDA和cuDNN库,所有代码均跑在docker容器中。
  6. 服务器启用内部域名,使用内部域名的方法是将DNS改为222.201.187.50,此DNS仅供实验室内部使用。以后即使服务器迁移改变了IP,但是其对应的域名是不会变的。
  1. 116.56.143.170 a.server.sailab.ai
  2. 116.56.143.171 b.server.sailab.ai
  3. 116.56.143.172 c.server.sailab.ai
  4. 116.56.143.173 d.server.sailab.ai
  5. 116.56.143.174 e.server.sailab.ai
  6. 222.201.145.151 f.server.sailab.ai
  7. 222.201.145.154 g.server.sailab.ai
  8. 222.201.145.224 h.server.sailab.ai
  9. 222.201.144.237 i.server.sailab.ai
  10. 202.38.200.181 j.server.sailab.ai
  11. 202.38.200.182 k.server.sailab.ai
  12. 202.38.200.183 l.server.sailab.ai
  13. 202.38.200.184 m.server.sailab.ai
  14. 202.38.200.186 n.server.sailab.ai
  15. 202.38.200.188 o.server.sailab.ai
  16. 202.38.200.189 p.server.sailab.ai
  17. 202.38.200.190 q.server.sailab.ai
  18. 116.56.140.123 r.server.sailab.ai
  19. 116.56.140.125 s.server.sailab.ai
  20. 202.38.200.189 docker.sailab.ai
  21. 116.56.140.123 share.sailab.ai

Docker使用相关

Docker镜像

大部分的深度学习框架都有官方的镜像(如pytorchcaffe2),或者到这个仓库中查找。
如果需要自定义镜像,请先了解如何使用Dockerfile构建镜像,然后在特定的CUDA和cuDNN版本镜像上构建。官方的CUDA和cuDNN镜像可以到NVIDIA官方仓库拉取。

Docker镜像名称约定

拉取镜像之后需要以将仓库名改为自己的名字,如使用以下命令拉取了一个pytorch的镜像,

  1. docker pull pytorch/pytorch:lastest

需使用docker tag命令将镜像改名,

  1. dcoker tag pytorch/pytorch:lastest zhangsan/pytorch:lastest

管理员会定期清理存储空间,前缀没有用户名的镜像很可能被删除。
所以为了减轻管理员的负担,请各位同学更改镜像名称之后删除原来的镜像,这样可以减少docker images命令看到的容器数量。

  1. docker image rm pytorch/pytorch:lastest

Docker容器名称约定

启动容器的时候必须指定容器名字,名字开头应该为姓名全拼,后接任务名称。比如张三同学需要跑一个图片分类的任务,则容器名称应该为zhangsan-image-classification

  1. nvidia-docker run -it --name zhangsan-image-classification zhangsan/pytorch:lastest

这样,就可以使用以下命令列出所有有张三同学建立的容器,

  1. docker ps -a -f name='zhangsan*'

为了减轻管理员的负担,请各位同学自行删除不必要的容器。此外,管理员会删除不以任何同学拼音开头的容器。

Docker权限约定

为了减少不必要的权限,所有容器默认启动的时候都是以当前用户的权限启动的,如果需要以root权限进入容器,仅需简单地使用/usr/bin/docker替代docker命令即可,即

  1. /usr/bin/docker run --rm -it zhangsan/pytorch:lastest

如果需要以root权限进入nvidia docker,则使用/usr/bin/docker run --runtime=nvidia,即

  1. /usr/bin/docker run --runtime=nvidia --rm -it zhangsan/pytorch:lastest

Docker私有镜像

在内网中已经部署了私有镜像服务器,方便同学们在不同服务器之间传递镜像和分享自己的镜像给其他同学。
使用方法如下,首先需要登录私有镜像服务器(账号向管理员申请),

  1. docker login docker.sailab.ai

输入账号名和密码,会提示登陆成功。
将要上传的镜像建立一个新的标签(建议所有的镜像都可以更改为私有镜像源,方便内部使用),

  1. docker tag zhangsan/pytorch:lastest docker.sailab.ai/zhangsan/pytorch:lastest

上传,

  1. docker push docker.sailab.ai/zhangsan/pytorch:lastest

最后不要忘了登出,

  1. docker logout docker.sailab.ai

从私有镜像源中拉取镜像也是类似的步骤,这里就不再赘述了。

Docker使用帮助

可以参考Docker从入门到实践的1.7和1.8节,如果需要使用网络相关,请参考1.11节。

添加新批注
在作者公开此批注前,只有你和作者可见。
回复批注