CTI-Inference-Opt

Files

T

Serendipity 96462444f6 feat: INT8 动态量化所有 Linear 层（torch.ao.quantization）

- 仅量化 Linear 权重（不影响 Embedding）
- INT8 权重读带宽减半 vs FP16
- try-except 保护：CUDA 后端不可用时回退 FP16

2026-06-13 13:53:45 +08:00

2026-06-13 13:53:45 +08:00

main.ipynb

2026-06-12 20:51:14 +08:00

任务提交接口说明.md

2026-06-03 13:49:30 +08:00