Skip to main content

Reduce 性能优化实践

上一篇文章中,我们手写了一个简单的 Reduce 算法,但是性能并不是很好,这一章中我们将会逐步优化这个算法。

  • 交叉寻址
  • 解决 Bank Conflict
  • 解决空闲线程
  • 展开最后一个 warp