ffpa-attn-mma

Cuda ★ 1 updated 1y ago ⑂ fork

📚FFPA(Split-D): Yet another Faster Flash Prefill Attention with O(1) GPU SRAM complexity for headdim > 256, ~2x↑🎉vs SDPA EA.

No plain-English explanation yet — one is being written right now. Check back in a minute.