跳过正文

CUDA Optimization

125 字·1 分钟· loading · loading ·
CUDA
CUDA Parallel Programming - 这篇文章属于一个选集。
§ 4: 本文

CUDA 程序获得高性能的必要(但不充分)条件有:

  • 数据传输比例较小
  • 核函数的算术强度较高(计算访存比)
  • 核函数中定义的线程数目较多

在编写与优化 CUDA 程序时,要想方设法(设计算法)做到:

  • 减少主机与设备之间的数据传输
  • 提高核函数的算术强度(计算访存比)
  • 增大核函数的并行规模
CUDA Parallel Programming - 这篇文章属于一个选集。
§ 4: 本文