CTI-Inference-Opt

Files

T

Serendipity 574399e8ac feat: Flash Attention + torch.compile（第二版优化方案）

- scaled_dot_product 替换为 F.scaled_dot_product_attention（自动启用 Flash Attention）
- load_model 中添加 torch.compile(mode='reduce-overhead')
- build_env.sh: 预热 torch inductor，避免编译耗时计入推理

2026-06-12 21:39:43 +08:00

build_env.sh

feat: Flash Attention + torch.compile（第二版优化方案）

2026-06-12 21:39:43 +08:00

infer.py

feat: Flash Attention + torch.compile（第二版优化方案）

2026-06-12 21:39:43 +08:00

requirements.txt

revert: requirements.txt 还原为原始完整依赖列表

2026-06-12 21:24:22 +08:00