Files
CTI-Inference-Opt/代码/code
Serendipity 574399e8ac feat: Flash Attention + torch.compile(第二版优化方案)
- scaled_dot_product 替换为 F.scaled_dot_product_attention(自动启用 Flash Attention)
- load_model 中添加 torch.compile(mode='reduce-overhead')
- build_env.sh: 预热 torch inductor,避免编译耗时计入推理
2026-06-12 21:39:43 +08:00
..