CTI-Inference-Opt

Files

T

Serendipity bc6e8307c5 revert: 移除 torch.compile（动态 batch 形状导致反复重编译，反而慢于不编译）

Sequence Packing 使每个 batch 序列长度不同，CUDA Graph 需反复重编译。
Flash Attention + FP16 是目前最优组合（94.5s, 56.98 分）。

2026-06-12 22:02:40 +08:00

build_env.sh

2026-06-12 21:55:09 +08:00

infer.py

2026-06-12 22:02:40 +08:00

requirements.txt

2026-06-12 21:24:22 +08:00