c081620ffd
- 仅路由到 Top-1 expert(节省 50% FFN 计算) - gate 输出 top-2 概率,用 p1+p2 作为输出权重 - 近似 k=2 的输出幅度,避免 PCOC 偏移 - 是参数调整修正,非方案本身错误