docs: 收尾 — 最终67.998/记录RepEncoder预计算尝试与结论

2026-06-16 13:18:48 +08:00
parent 632c206546
commit 3adc27359b
1 changed files with 15 additions and 1 deletions
@@ -39,7 +39,21 @@
 | + emb_fp16 | 65.86s | 63.67 | 0.7524 | +1.6 |
 | + chunked 注意力(8) | 59.44s | 65.17 | 0.7524 | ✅ -6.4s |
 | + dedup 查表 | 47.88s | 67.87 | 0.7524 | ✅ -11.6s |
-| + chunk_users=4 | _待填_ | _待填_ | | 收尾微调 |
+| + chunk_users=4 + RepEncoder预计算 | 47.32s | **67.998** | 0.7524 | 当前最优；预计算评测端回退(无效) |
 ## RepEncoder 预计算(冲70尝试，最终未生效）
 思路：在不计时的 load_model 里预计算 context-free 的 item 向量，model(batch) 按 logid
 gather、跳过 embedding 层。本地验证 6.19→4.07s（-34%）、AUC 逐位等价。
 评测端两次失败：
 1. 第一次：load_model 全量 load_sample_files 与评测自身数据双倍 → OOM → 提交"异常"。
 2. 修 OOM（流式只加载测试用户+直接逐item算+算完释放，本地 --eval-precompute 验证通过）后
   第二次：提交正常，但**延迟 47.32s 不变 → 预计算静默回退**（dataset/布局或 logid 未命中，
   无日志难定位）。AUC/分数正常（=干净版），即等于没用预计算。
 结论：预计算评测端未生效 + 合规灰区，**已默认关闭**。`CONFIG.precompute_rep=True` +
 `bench --eval-precompute` 可本地复现 4.07s；如拿到评测日志可再诊断。
 ## 验证过更慢/无效、已弃的手段