Files
CTI-Inference-Opt/代码
Serendipity da37245a9b perf: SMoE 消除 GPU 同步 + CTRModel 去冗余 reshape
1. SMoE: 移除 if not mask.any()(64次GPU→CPU同步/forward)
   - k=2时每个expert都分到token,检查从不跳过
   - 改用 token_idx.numel()==0 判断(元数据操作,不同步)
2. SMoE: out_flat reshape 提到循环外(省7次重复)
3. CTRModel: encoder_output.reshape().squeeze() → .squeeze()
2026-06-13 13:16:01 +08:00
..