From 0f359288a10d7985b722667310b678cee0b429f4 Mon Sep 17 00:00:00 2001
From: OwnerSunshine530 <OwnerSunshine530@zohomail.com>
Date: Mon, 15 Jun 2026 09:16:20 +0800
Subject: [PATCH] =?UTF-8?q?perf:=20=E9=BB=98=E8=AE=A4=E6=B3=A8=E6=84=8F?=
 =?UTF-8?q?=E5=8A=9B=E8=AE=BE=E4=B8=BA=20varlen(=E5=B5=8C=E5=A5=97?=
 =?UTF-8?q?=E5=BC=A0=E9=87=8F=E5=8F=98=E9=95=BFflash)=EF=BC=8C=E6=9C=AC?=
 =?UTF-8?q?=E5=9C=B0=2015.15s->10.28s=20=E5=BF=AB32%=20AUC=E4=B8=8D?=
 =?UTF-8?q?=E5=8F=98?=
MIME-Version: 1.0
Content-Type: text/plain; charset=UTF-8
Content-Transfer-Encoding: 8bit

Co-Authored-By: Claude Opus 4.8 <noreply@anthropic.com>
---
 代码/code/infer.py | 7 ++++---
 1 file changed, 4 insertions(+), 3 deletions(-)

diff --git a/代码/code/infer.py b/代码/code/infer.py
index 825b7be..b8a3667 100644
--- a/代码/code/infer.py
+++ b/代码/code/infer.py
@@ -40,9 +40,10 @@ CONFIG = {
     "signid_mode": "clamp",   # "clamp" 或 "modulo"：处理超界 sign id 的方式
     "sync_timing": False,     # bench 里设 True，做 torch.cuda.synchronize 真实计时
     "filter_test_users": True,  # 只处理含测试样本的用户（跳过会被丢弃的用户，省算力）
-    # 实测(A800)：sdpa+loop=15.1s 最快；flex/dense/compile/小batch 都更慢。
-    # attn: "sdpa"(稠密mask,默认/已验证) / "flex"(FlexAttention,慢) / "varlen"(嵌套张量变长flash)
-    "attn": "sdpa",
+    # 实测(A800,本地5451用户)：sdpa=15.15s，varlen=10.28s(快32%,AUC不变)，
+    # flex/compile/小batch 都更慢。默认 varlen。
+    # attn: "varlen"(嵌套张量变长flash,默认) / "sdpa"(稠密mask) / "flex"(FlexAttention)
+    "attn": "varlen",
     "vectorize_moe": False,   # True=稠密向量化MoE；False=原逐expert循环（默认，已验证更快）
     "compile": False,         # 是否 torch.compile（实测慢5×，勿开）
 }