From 316930219a0c71adc0be6b7b807309d2095a4273 Mon Sep 17 00:00:00 2001
From: OwnerSunshine530 <OwnerSunshine530@zohomail.com>
Date: Tue, 16 Jun 2026 23:39:52 +0800
Subject: [PATCH] =?UTF-8?q?experiment:=20chunk=5Fusers=3D8=20=E9=AA=8C?=
 =?UTF-8?q?=E8=AF=81'=E8=AF=84=E6=B5=8B=E7=AB=AF=E5=BC=80=E9=94=80?=
 =?UTF-8?q?=E4=B8=BB=E5=AF=BC=E2=86=92=E5=9D=97=E5=B0=91=E6=9B=B4=E5=BF=AB?=
 =?UTF-8?q?'(chunk=3D3=E8=AF=84=E6=B5=8B49.5s=E6=9B=B4=E6=85=A2=E7=9A=84?=
 =?UTF-8?q?=E5=8F=8D=E5=90=91=E6=8E=A8=E8=AE=BA)?=
MIME-Version: 1.0
Content-Type: text/plain; charset=UTF-8
Content-Transfer-Encoding: 8bit

Co-Authored-By: Claude Opus 4.8 <noreply@anthropic.com>
---
 代码/code/infer.py | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/代码/code/infer.py b/代码/code/infer.py
index 73d67b8..b78b8a8 100644
--- a/代码/code/infer.py
+++ b/代码/code/infer.py
@@ -44,7 +44,7 @@ CONFIG = {
     # sdpa 是评测端验证最快(89.96s/58.86)。flex/compile/小batch/varlen 在评测端都更差。
     # attn: "chunked"(按用户分块SDPA,降O(S²),本地14.25->7.92s) / "sdpa"(稠密mask) / 其它对照
     "attn": "chunked",
-    "chunk_users": 3,         # chunked 每块用户数（扫描 1/2/3/4：chunk=3 最优 4.13s，块对角浪费vs块数开销平衡）
+    "chunk_users": 8,         # 评测端开销主导:块少=调用少。chunk=3评测更慢(49.5s)→反向往大试。chunk=4=47.84s基准
     # 稠密MoE去掉了 model(batch) 内唯一的同步点(MoE循环的.nonzero())。若评测计时不
     # synchronize，去掉同步点可能让被计时的 model(batch) 大幅缩短。本地force-sync看不出，
     # 须靠提交验证。AUC中性、MoE仅占2%算力故风险极低。