Files
CTI-Inference-Opt/代码/code/tests
OwnerSunshine530 b397c142fa feat: 真稀疏MoE(capacity分组,只算top-k,cutlass baddbmm,无host同步)
按expert排序token+固定capacity分桶,每桶dense baddbmm,减GEMM~3x。argsort/where/
scatter/index_add无.item()/bincount同步(不同于loop MoE)。超容量token丢弃(capacity_factor控)。
等价测试(大capacity无丢弃==dense)。bench --moe-sparse/--moe-cap。默认关待验证。

Co-Authored-By: Claude Opus 4.8 <noreply@anthropic.com>
2026-06-17 21:05:55 +08:00
..