Implémenter Flash Attention en CUDA en une centaine de lignes