CTI-Inference-Opt

Files

T

OwnerSunshine530 84db692f07 feat: INT8 dense MoE(torch._int_mm,2D拼接W1_cat/W2_cat,top-k加权折进GEMM2,per-tensor激活量化)

dense MoE两个batched GEMM重写成2D GEMM以用A800 int8 tensor core;计算减半。
quant/dequant是真compute本地可见→本地bench即可判生死。默认关,bench --moe-int8。

Co-Authored-By: Claude Opus 4.8 <noreply@anthropic.com>

2026-06-20 01:35:55 +08:00

code

feat: INT8 dense MoE(torch._int_mm,2D拼接W1_cat/W2_cat,top-k加权折进GEMM2,per-tensor激活量化)

2026-06-20 01:35:55 +08:00

main.ipynb

chore: 更新 notebook 环境和文档

2026-06-12 20:51:14 +08:00

任务提交接口说明.md

chore: 初始化 CTI 推理优化项目

2026-06-03 13:49:30 +08:00