928de22a9b
延续 dense MoE 的胜因(消 per-batch 开销在评测端被放大见效)。28次embedding +28次segment_reduce 融合为1次;用 numel 读shape避免同步;base累加无同步。 保留 _rep_forward_perslot 作等价对照。CONFIG.fuse_embedding 默认 True。 Co-Authored-By: Claude Opus 4.8 <noreply@anthropic.com>