Files
CTI-Inference-Opt/代码/code
Serendipity 96462444f6 feat: INT8 动态量化所有 Linear 层(torch.ao.quantization)
- 仅量化 Linear 权重(不影响 Embedding)
- INT8 权重读带宽减半 vs FP16
- try-except 保护:CUDA 后端不可用时回退 FP16
2026-06-13 13:53:45 +08:00
..