CTI-Inference-Opt

Files

T

OwnerSunshine530 9eaf5f5511 fix: Phase B 实测回归(flex+dense慢5-6x)，默认回退 sdpa+loop；bench 加 --profile

实测 A800：sdpa+loop=15.15s，flex+dense=98s，+compile=82s。模型是开销瓶颈
非算力瓶颈(30TFLOP应0.15s却跑15s)，FlexAttention解决的算力问题非此处瓶颈、
反增开销。默认改回已验证最快的 sdpa+loop。新增 bench --profile 用 torch.profiler
定位真正的开销来源(算子级)。

Co-Authored-By: Claude Opus 4.8 <noreply@anthropic.com>

2026-06-15 00:25:53 +08:00

tests

feat(Phase B): FlexAttention 块对角注意力 + MoE 稠密向量化

2026-06-14 23:30:59 +08:00

bench.py

fix: Phase B 实测回归(flex+dense慢5-6x)，默认回退 sdpa+loop；bench 加 --profile

2026-06-15 00:25:53 +08:00

build_env.sh

fix: build_env.sh 简化为纯净版本（避免 CUDA 预热导致异常）

2026-06-12 21:55:09 +08:00

EXPERIMENTS.md

feat: infer.py 接入 CONFIG 实验开关 + 新增 bench.py 测量闭环