feb71be5bd
- SMoE 默认 k=2 → k=1(属于稀疏优化,规则允许) - TransformerEncoder 8 层全部改用 Top-1 gating - forward 针对 k=1 走快速路径(避免二维 mask 和加权累加)