84db692f07
dense MoE两个batched GEMM重写成2D GEMM以用A800 int8 tensor core;计算减半。 quant/dequant是真compute本地可见→本地bench即可判生死。默认关,bench --moe-int8。 Co-Authored-By: Claude Opus 4.8 <noreply@anthropic.com>