CUDATutorial
从零开始学习 CUDA 高性能编程,从入门到放弃,哦不!一起来边学习,边打笔记,日拱一卒!
学习路线
新手村系列 🐸
初阶系列 ⚔
中阶系列 🚀
- 手写实现 Reduce
- Reduce 性能优化实践
- Reduce 性能优化实践—交叉寻址
- Reduce 性能优化实践—解决 Bank Conflict
- Reduce 性能优化实践—解决空闲线程
- Reduce 性能优化实践—展开最后一个 warp
- GEMM 优化专题-二维 Thread Tile 并行优化
- GEMM 优化专题-向量化访存
- GEMM 优化专题-warp tiling
- GEMM 优化专题-双缓冲
- GEMM 优化专题-解决 Bank Conflict
- 卷积算子优化专题-卷积算子简易实现
- 卷积算子优化专题-卷积算子优化思路介绍
- 卷积算子优化专题-im2col + gemm 实现卷积
- 卷积算子优化专题-隐式 GEMM 实现卷积
- 卷积算子优化专题-CUTLASS 中的卷积优化策略
高阶系列 ✈️
- 页锁定和主机内存
- CUDA 流和多流使用
- 使用多个 GPU 计算
- ...(补充中)
大师系列 💡
我现在还不知道写啥,毕竟我现在还是菜鸡~~