diff --git a/代码/code/infer.py b/代码/code/infer.py index b78b8a8..7e172c2 100644 --- a/代码/code/infer.py +++ b/代码/code/infer.py @@ -44,7 +44,7 @@ CONFIG = { # sdpa 是评测端验证最快(89.96s/58.86)。flex/compile/小batch/varlen 在评测端都更差。 # attn: "chunked"(按用户分块SDPA,降O(S²),本地14.25->7.92s) / "sdpa"(稠密mask) / 其它对照 "attn": "chunked", - "chunk_users": 8, # 评测端开销主导:块少=调用少。chunk=3评测更慢(49.5s)→反向往大试。chunk=4=47.84s基准 + "chunk_users": 4, # 评测扫描 3/4/8:chunk=4 最优(47.84s/67.998),3更慢8持平→此维度榨干 # 稠密MoE去掉了 model(batch) 内唯一的同步点(MoE循环的.nonzero())。若评测计时不 # synchronize,去掉同步点可能让被计时的 model(batch) 大幅缩短。本地force-sync看不出, # 须靠提交验证。AUC中性、MoE仅占2%算力故风险极低。