574399e8ac
- scaled_dot_product 替换为 F.scaled_dot_product_attention(自动启用 Flash Attention) - load_model 中添加 torch.compile(mode='reduce-overhead') - build_env.sh: 预热 torch inductor,避免编译耗时计入推理