96462444f6
- 仅量化 Linear 权重(不影响 Embedding) - INT8 权重读带宽减半 vs FP16 - try-except 保护:CUDA 后端不可用时回退 FP16
- 仅量化 Linear 权重(不影响 Embedding) - INT8 权重读带宽减半 vs FP16 - try-except 保护:CUDA 后端不可用时回退 FP16