Files
CTI-Inference-Opt/代码/code
OwnerSunshine530 928de22a9b perf: RepEncoder 融合 28-slot 查表+池化为单次(减per-batch kernel启动,无新增同步)
延续 dense MoE 的胜因(消 per-batch 开销在评测端被放大见效)。28次embedding
+28次segment_reduce 融合为1次;用 numel 读shape避免同步;base累加无同步。
保留 _rep_forward_perslot 作等价对照。CONFIG.fuse_embedding 默认 True。

Co-Authored-By: Claude Opus 4.8 <noreply@anthropic.com>
2026-06-15 11:50:11 +08:00
..