feat/auc-recovery-plan #1

Merged
Serendipity merged 20 commits from feat/auc-recovery-plan into main 2026-06-15 12:33:32 +08:00
Showing only changes of commit 0f359288a1 - Show all commits
+4 -3
View File
@@ -40,9 +40,10 @@ CONFIG = {
"signid_mode": "clamp", # "clamp" 或 "modulo":处理超界 sign id 的方式 "signid_mode": "clamp", # "clamp" 或 "modulo":处理超界 sign id 的方式
"sync_timing": False, # bench 里设 True,做 torch.cuda.synchronize 真实计时 "sync_timing": False, # bench 里设 True,做 torch.cuda.synchronize 真实计时
"filter_test_users": True, # 只处理含测试样本的用户(跳过会被丢弃的用户,省算力) "filter_test_users": True, # 只处理含测试样本的用户(跳过会被丢弃的用户,省算力)
# 实测(A800)sdpa+loop=15.1s 最快;flex/dense/compile/小batch 都更慢。 # 实测(A800,本地5451用户)sdpa=15.15svarlen=10.28s(快32%,AUC不变)
# attn: "sdpa"(稠密mask,默认/已验证) / "flex"(FlexAttention,慢) / "varlen"(嵌套张量变长flash) # flex/compile/小batch 都更慢。默认 varlen。
"attn": "sdpa", # attn: "varlen"(嵌套张量变长flash,默认) / "sdpa"(稠密mask) / "flex"(FlexAttention)
"attn": "varlen",
"vectorize_moe": False, # True=稠密向量化MoEFalse=原逐expert循环(默认,已验证更快) "vectorize_moe": False, # True=稠密向量化MoEFalse=原逐expert循环(默认,已验证更快)
"compile": False, # 是否 torch.compile(实测慢5×,勿开) "compile": False, # 是否 torch.compile(实测慢5×,勿开)
} }