[关闭]
@Purpose 2017-03-13T08:28:48.000000Z 字数 1438 阅读 1536

centos7下运行mpi链接超时

linux笔记


在Centos7下跑mpi的时候,除了出现要你敲-allow-run-as-root 这样有长又烦人的语句之外,还有一个令人抓狂的地方是,你每次运行都提示你一个xxx找不到,识别不了,你必须要等十五秒才可以正常运行程序......

经过我多番百度谷歌之后,终于在Red Hat的社区里找到了有用的解决方案(不愧是centos的老大)

  1. #Reproducer:
  2. [root@rdma-qe-06 ~]$ rpm -qf $(which fi_info)
  3. libfabric-1.3.0-3.el7.x86_64 #据说就是这个1.3.0版本的锅,自带bug
  4. [root@rdma-qe-06 ~]$ fi_info
  5. rdma-qe-06.56339hfi_wait_for_device: The /dev/hfi1_0 device failed to appear after 15.0 seconds: Connection timed out #就是这行东东,每次你都要等十五秒,程序才会运行
  6. verbs: IB-0x80fe
  7. version: 1.0
  8. type: FI_EP_MSG
  9. protocol: FI_PROTO_RDMA_CM_IB_RC
  10. verbs: IB-0x80fe
  11. version: 1.0
  12. type: FI_EP_RDM
  13. protocol: FI_PROTO_IB_RDM
  14. UDP: UDP-IP
  15. version: 1.0
  16. type: FI_EP_DGRAM
  17. protocol: FI_PROTO_UDP
  18. sockets: IP
  19. version: 1.0
  20. type: FI_EP_MSG
  21. protocol: FI_PROTO_SOCK_TCP
  22. sockets: IP
  23. version: 1.0
  24. type: FI_EP_DGRAM
  25. protocol: FI_PROTO_SOCK_TCP
  26. sockets: IP
  27. version: 1.0
  28. type: FI_EP_RDM
  29. protocol: FI_PROTO_SOCK_TCP
  30. #Verification:
  31. [root@rdma-qe-06 ~]$ rpm -q libfabric
  32. libfabric-1.4.1-1.el7.x86_64 #升级到了1.4.1之后就没有这个问题了
  33. [root@rdma-qe-06 ~]$ time fi_info
  34. provider: verbs #看,没有了那烦人的十五秒等待
  35. fabric: IB-0x80fe
  36. domain: mlx5_0
  37. version: 1.0
  38. type: FI_EP_MSG
  39. protocol: FI_PROTO_RDMA_CM_IB_RC
  40. provider: UDP
  41. fabric: UDP-IP
  42. domain: udp
  43. version: 1.0
  44. type: FI_EP_DGRAM
  45. protocol: FI_PROTO_UDP
  46. provider: UDP
  47. fabric: UDP-IP
  48. domain: udp
  49. version: 1.0
  50. type: FI_EP_DGRAM
  51. protocol: FI_PROTO_UDP

然而,,你知道了要升级也没有用……因为,目前阿里云,中科大,163等常见的yum源里都没有1.4.1版本,只有这个罪恶的1.3.0(130也不算老,去年12月份的好像)
所以你要自个跑去下载,传送门在此
进去选择1.4.1下载,然后上传到虚拟机中(你喜欢也可以用wget)
要用 yum remove命令手动卸载掉老旧版本先
然后rpm -ivh命令安装rpm文件
然后重新yum安装无辜的openmpi
这个时候那个烦人的十五秒就没有啦~

添加新批注
在作者公开此批注前,只有你和作者可见。
回复批注