[关闭]
@Velaciela 2017-06-25T08:30:33.000000Z 字数 492 阅读 131

cuSAR项目框图

CUDA


SAR成像整体上是访存密集型算法。
在每个计算步骤做到都合并访存后,还可能的优化是计算步骤的合并和减少算法空间占用。

计算合并:
主要障碍是大量使用的cuFFT库函数,但库函数只有接口,对用户是黑箱,不能把前后的点乘计算整合进去。

本项目在CUDA平台上实现FFT计算,并达到与cuFFT一致的速度。
通过整合FFT+点乘+IFFT三个计算步骤,将计算时间再减少2/5左右。
65536*4以上大点数实现的FFT+IFFT计算过程比cuFFT库快1/3,不在此详细说明。

空间占用:
cuFFT会分配用户不可访问的显存空间,用于计算过程中可能的数据交换和暂存。
在cuFFT库的批量计算模式下,有大量的空间占用。
对于非方阵的矩阵转置,通常做法是分配与数据等量的显存空间,进行数据交换。

本项目实现的FFT计算,在8192以下小点数计算时,不需要分配算法显存空间。
针对算法特点,划分多个子矩阵(方阵),实现原址“矩阵转置”,进一步降低显存空间占用。


image_1bblh2odj11rs11cv2co1l0il6c9.png-48.7kB
图1、基于GPU的RD SAR成像算法常规实现框图


image_1bblh2vrq1sc918271kb2dl21vpmm.png-36.9kB
图2、本项目实现框图


image_1bblh706r1v4u6tkp6or3f3bg13.png-33.3kB
图3、针对项目算法的原址“矩阵转置”实现方式

添加新批注
在作者公开此批注前,只有你和作者可见。
回复批注