@x-power
2023-04-12T16:53:14.000000Z
字数 413
阅读 232
测试结果
今晚我去实现了一下pytorch的DDP,其代码如下:
'''网络大小'''
self.conv1 = nn.Conv2d(3, 6, 5)
self.pool = nn.MaxPool2d(2, 2)
self.conv2 = nn.Conv2d(6, 16, 5)
self.fc1 = nn.Linear(16 * 5 * 5, 120)
self.fc2 = nn.Linear(120, 84)
self.fc3 = nn.Linear(84, 10)
'''数据集为cifar10,batch_size为2'''
单机单卡模式下(3090):
时间:两个小时
内存占用:1400
算力占用:11%(batch_size和网络太小了, 占用上不去)
多机多卡下(局域网环境):
主机1,三张3090
主机2,一张3090
时间:一小时八分钟
内存占用: 1400
带宽占用:1500Mb/s
算力占用:6%
问题
1、 带宽要求太高了,每次的梯度汇总、参数回传太占用带宽了。