Files
CTI-Inference-Opt/代码/code
Serendipity bc6e8307c5 revert: 移除 torch.compile(动态 batch 形状导致反复重编译,反而慢于不编译)
Sequence Packing 使每个 batch 序列长度不同,CUDA Graph 需反复重编译。
Flash Attention + FP16 是目前最优组合(94.5s, 56.98 分)。
2026-06-12 22:02:40 +08:00
..