revert: triton_block_m 退回64(128评测33.99>33.00,块大compute增量盖过launch节省)。锁回71.34

2026-06-20 01:27:45 +08:00
parent 292a021679
commit 112ea014aa
1 changed files with 2 additions and 2 deletions
@@ -145,8 +145,8 @@ CONFIG = {
    # sdpa 是评测端验证最快(89.96s/58.86)。flex/compile/小batch/varlen 在评测端都更差。
    # attn: "chunked"(按用户分块SDPA,降O(S²),本地14.25->7.92s) / "sdpa"(稠密mask) / 其它对照
    "attn": "triton",         # Triton varlen flash(单kernel,消逐块调用/mask构造开销);无triton回退chunked
-    # 本地 64 最快(4.86);但评测对launch敏感(消同步刚赚-1.64s),块大=launch少→评测试128
-    "triton_block_m": 128,    # Triton query 块大小;128 块数减半、launch减半(评测可能更快)
+    # 评测扫 64/128:64 最优(33.00s);128 块大compute增量(块对角浪费)盖过launch节省→33.99s。
+    "triton_block_m": 64,     # Triton query 块大小(本地+评测均 64 最优)
    "chunk_users": 4,         # chunked 回退时用;评测扫描 3/4/8 中 4 最优(47.84s/67.998)
    # 稠密MoE去掉了 model(batch) 内唯一的同步点(MoE循环的.nonzero())。若评测计时不
    # synchronize，去掉同步点可能让被计时的 model(batch) 大幅缩短。本地force-sync看不出，