da37245a9b
1. SMoE: 移除 if not mask.any()(64次GPU→CPU同步/forward) - k=2时每个expert都分到token,检查从不跳过 - 改用 token_idx.numel()==0 判断(元数据操作,不同步) 2. SMoE: out_flat reshape 提到循环外(省7次重复) 3. CTRModel: encoder_output.reshape().squeeze() → .squeeze()