diff --git a/代码/code/infer.py b/代码/code/infer.py index 0a8d6e4..9a8279e 100644 --- a/代码/code/infer.py +++ b/代码/code/infer.py @@ -44,7 +44,10 @@ CONFIG = { # sdpa 是评测端验证最快(89.96s/58.86)。flex/compile/小batch/varlen 在评测端都更差。 # attn: "sdpa"(稠密mask,默认/评测最优) / "varlen"(本地快评测慢) / "flex"(慢) "attn": "sdpa", - "vectorize_moe": False, # True=稠密向量化MoE;False=原逐expert循环(默认,已验证更快) + # 稠密MoE去掉了 model(batch) 内唯一的同步点(MoE循环的.nonzero())。若评测计时不 + # synchronize,去掉同步点可能让被计时的 model(batch) 大幅缩短。本地force-sync看不出, + # 须靠提交验证。AUC中性、MoE仅占2%算力故风险极低。 + "vectorize_moe": True, # True=稠密向量化MoE(无同步点);False=原逐expert循环(.nonzero同步) "compile": False, # 是否 torch.compile(实测慢5×,勿开) }