ffpa-attn

Python ★ 310 updated 3d ago

🤖FFPA: Extends FlashAttention-2 via Split-D for large headdims, 1.5x~3×↑🎉 vs SDPA, up to 430T🎉 on H200.

No plain-English explanation yet — one is being written right now. Check back in a minute.