Files
CTI-Inference-Opt/代码/code
Serendipity feb71be5bd feat: MoE Top-1 gating(每个 token 仅激活 1 个 expert,FFN 计算减半)
- SMoE 默认 k=2 → k=1(属于稀疏优化,规则允许)
- TransformerEncoder 8 层全部改用 Top-1 gating
- forward 针对 k=1 走快速路径(避免二维 mask 和加权累加)
2026-06-12 22:04:34 +08:00
..