CTI-Inference-Opt

Files

T

Serendipity 96462444f6 feat: INT8 动态量化所有 Linear 层（torch.ao.quantization）

- 仅量化 Linear 权重（不影响 Embedding）
- INT8 权重读带宽减半 vs FP16
- try-except 保护：CUDA 后端不可用时回退 FP16

2026-06-13 13:53:45 +08:00

build_env.sh

2026-06-12 21:55:09 +08:00

infer.py

2026-06-13 13:53:45 +08:00

requirements.txt

2026-06-12 21:24:22 +08:00