bc6e8307c5
Sequence Packing 使每个 batch 序列长度不同,CUDA Graph 需反复重编译。 Flash Attention + FP16 是目前最优组合(94.5s, 56.98 分)。
Sequence Packing 使每个 batch 序列长度不同,CUDA Graph 需反复重编译。 Flash Attention + FP16 是目前最优组合(94.5s, 56.98 分)。