[关闭]
@nicklhy 2016-11-28T01:45:06.000000Z 字数 2432 阅读 867

集群服务器使用说明及管理条例

集群服务器


集群概况

硬件

  1. 整个集群系统由控制节点*1、计算节点*3、存储节点*1构成;
  2. 所有节点内部网络通信通过一个局域网交换机连接,网卡eth0,IP段为10.1.1.0;
  3. 所有节点内部数据传输通过一个IB交换机连接进行数据传输,网卡ib0;
  4. 所有节点外部网络连接经过一个路由器与校园网连接,路由器WAN口IP已经绑定域名cluster.pkuml.com,内部IP段为192.168.100.0;
  5. 3个计算节点型号相同,CPU核心数为24(48线程),GPU为Tesla K80*8(可当作16块K40使用);

软件

  1. 集群操作系统为Rocks OS,基于CentOS 6.5;
  2. 资源调度管理框架为Torque+Maui;

软件环境说明

注意

  1. 由于集群系统基于CentOS 6.5,大部分yum源里自带软件的版本都很低(比如python2.6、 cmake2.8等等),因此管理员已经安装了很多新版本软件在/share/apps/opt或者/share/apps/local下面,前者主要用于安装Matlab等独立软件,后者用于安装boost、opencv等具有include、lib、bin等目录的普通软件;
  2. Caffe、MXNet当前版本的依赖库均已安装,如果因为需要使用老版本Caffe、MXNet而需要老版本的依赖库,请自行解决;
  3. Linux命令操作等知识请自行解决,但因为该集群服务器没有图形界面,建议使用ssh+tmux+vim等软件进行连接、编辑;

常用软件列表

  1. CUDA版本为7.5,安装目录在/usr/local/cuda下;
  2. CUDNN版本为4,安装目录为/share/apps/local/include和/share/apps/local/lib;
  3. boost库:1.55,安装路径为/share/apps/local,添加环境变量BOOST_ROOT在/etc/profile.d/set.sh,方便cmake搜索;
  4. opencv:3.0.0,安装路径为/share/apps/local,添加环境变量OPENCV_DIR在/etc/profile.d/set.sh,方便cmake搜索;
  5. cmake: 3.4,安装路径为/share/apps/local;
  6. openmpi:,安装路径为/share/apps/opt/openmpi;
  7. python27:/opt/rh/python27,库文件在/opt/rh/python27/root/usr/lib64/python2.7/site-packages下;
  8. python33:/opt/rh/python33;
  9. glog:安装路径为/share/apps/local;
  10. vim:7.4,安装路径为/share/apps/local;
  11. fetch-gpu:查看计算节点GPU状态(此脚本是根据当前需求由史业民同学编写,目前仍在完善功能当中:-n参数加节点ID可以显示对应计算节点的GPU使用情况,-t参数可以显示该节点的占用进程列表,-a显示nvidia-smi原始输出);
  12. openmpi:/opt/openmpi集群插件,/share/apps/opt/openmpi为高版本软件库;
  13. matlab:安装路径为/share/apps/opt/matlab;
  14. gflags:V2.12,/share/apps/local;
  15. glog:V0.3.4,/share/apps/local;

自定义软件安装说明

1.caffe:标准版,12月22日下载,/share/apps/public/caffe,模板配置文件见/share/apps/public/caffe/Makefile.config,编译命令为make -j 24; make pycaffe; make matcaffe
2.mxnet:标准版,12月22日下载,/share/apps/public/mxnet,模板配置文件见/share/apps/public/mxnet/config.mk,编译命令为make -j 24,自行安装时可以考虑把/path-to-mxnet/python加入自己的~/.bashrc文件,export PYTHONPATH=/home/lhy/Documents/Codes/Libs/mxnet/python


用户使用规范

程序运行及数据存放

  1. 普通用户可以在自己/home/xxx目录随意存放数据,但是请时常进行冗余数据清理;
  2. 大型公共数据集如imagenet可以上传到/share/apps/public目录用于共享,这样避免每个人都拷贝多份重复文件;
  3. 小程序简单测试可以在控制节点进行,但是大型程序请通过qsub命令提交到计算节点上运行(compute-0-1, compute-0-2, compute-0-3),而不要在控制、存储节点运行;
  4. 目前GPU程序尽量使用单机单卡或者单机多卡模式,多机多卡模式目前还无法很好的被torque+maui调度,如果有特殊需要请提前申请;
  5. 上传下载文件请使用filezilla等软件进行sftp连接,账户密码即为系统登录的账户密码,由于目前集群的路由器暂时使用一个普通百兆路由器,请大家尽量不要进行大规模数据传输,如果需要也请在夜间进行;
  6. 所有节点的存储均为共享存储,即控制节点的/home/xxx目录与所有计算节点的/home/xxx目录均一致;

帐号管理(待定)

  1. 集群管理不需要设置过多管理员,目前仅设置一个管理员账户,其余均为普通账户,无法修改系统设置,有软件安装或其他特殊需求请与管理员及时联系;
  2. 该集群原则上主要提供给北京大学数字媒体所大脑解析仿真平台初级视觉系统进行科研计算使用,因此该项目组成员具有更高的任务优先级;
  3. 普通帐号应遵守集群服务器使用规范,否则会实施暂时性封号等处罚;

集群服务器计算资源分配(待定)

  1. GPU:
  2. CPU:

管理

  1. 控制、计算结点ipmi账号密码:ADMIN、ADMIN或者admin、passwd
添加新批注
在作者公开此批注前,只有你和作者可见。
回复批注