feat: 预计算RepEncoder缓存,model(batch)按logid gather跳过embedding层

不计时的load_model里(或bench从batches)预计算所有item的context-free RepEncoder向量, 排序存(sorted_logids,emb);model(batch)用searchsorted gather、缺失回退现算。逐位等价。预期 model(batch) 48s->~37s->~70。CONFIG.precompute_rep(eval默认True);bench --precompute-rep。 Co-Authored-By: Claude Opus 4.8 <noreply@anthropic.com>
2026-06-15 17:06:56 +08:00
parent 2662da850c
commit 2004ad6bb8
2 changed files with 97 additions and 2 deletions
@@ -209,8 +209,11 @@ def run_once(config_override=None, batch_size=50, max_batches=None,
    if max_feasign_per_slot is None:
        max_feasign_per_slot = {1: 2}

+    # 本地用已加载的过滤数据自建 rep 缓存，禁止 load_model 自动加载全量数据集
+    want_precompute = bool(config_override.pop("precompute_rep", False))
    infer.CONFIG.update(config_override)
    infer.CONFIG["sync_timing"] = True
+    infer.CONFIG["precompute_rep"] = False

    cur = Path(__file__).parent
    ref = cur / "dataset"
@@ -238,10 +241,25 @@ def run_once(config_override=None, batch_size=50, max_batches=None,
    gc.collect()

    model, dev = infer.load_model(ckpt_path=None)
+    cuda = (dev.type == "cuda")
+
+    # 本地从已建好的 batches 构造 rep 缓存（复用 batches、省内存；不计入计时）
+    if want_precompute:
+        lc, ec = [], []
+        with torch.inference_mode():
+            for b in batches:
+                bb = infer.move_batch_to_device(b, dev)
+                rep = model.rep_encoder(bb)
+                lc.append(bb["logid"].to(dev))
+                ec.append(rep)
+        logids = torch.cat(lc)
+        emb = torch.cat(ec)
+        order = torch.argsort(logids)
+        model._rep_cache = (logids[order].contiguous(), emb[order].contiguous())
+        print(f"[BENCH] rep cache built from batches: {logids.numel()} items")

    logid2p = {}
    t_sum = 0.0
-    cuda = (dev.type == "cuda")
    with torch.inference_mode():
        for b in batches:
            b = infer.move_batch_to_device(b, dev)
@@ -300,6 +318,8 @@ def _parse_args():
    ap.add_argument("--emb-fp16", action="store_true", help="Embedding表转FP16(查表带宽减半,测AUC)")
    ap.add_argument("--dedup-emb", action="store_true", help="查表前对sign去重(减少大表随机访存)")
    ap.add_argument("--sparse-pool", action="store_true", help="稀疏矩阵乘做池化(段内高重复时省)")
+    ap.add_argument("--precompute-rep", action="store_true",
+                    help="预计算RepEncoder缓存,model(batch)跳过embedding层(从batches自建)")
    ap.add_argument("--profile", type=int, default=None, metavar="N",
                    help="剖析前 N 个 batch，打印按 CUDA 耗时排序的算子表（定位瓶颈）")
    ap.add_argument("--rebuild", action="store_true", help="强制重建过滤缓存")
@@ -337,6 +357,8 @@ if __name__ == "__main__":
        cfg["dedup_embedding"] = True
    if a.sparse_pool:
        cfg["sparse_pool"] = True
+    if a.precompute_rep:
+        cfg["precompute_rep"] = True
    if a.compile:
        cfg["compile"] = True
    if a.profile is not None:
@@ -55,6 +55,8 @@ CONFIG = {
    "dedup_embedding": True,  # True=查表前对sign去重(只查唯一值再展开),本地7.80->6.49s,AUC逐位等价
    "sparse_pool": False,     # True=用(段×唯一)稀疏矩阵乘做池化,避免materialize整个[M,512](段内高重复时省)
    "compile": False,         # 是否 torch.compile（实测慢5×，勿开）
+    "precompute_rep": True,   # True=不计时的load_model里预计算所有item的RepEncoder向量,
+                              # model(batch)按logid gather缓存、跳过embedding层(逐位等价)
 }


@@ -624,6 +626,19 @@ class CTRModel(nn.Module):
        self.seq_encoder = seq_encoder
        self.d_model = d_model
        self.linear = nn.Linear(d_model, 1)
+        self._rep_cache = None  # (sorted_logids[N], rep_emb[N, d_model]) 或 None
+
+    def _gather_rep(self, batch):
+        """有预计算缓存时，按 logid gather 出 RepEncoder 向量（跳过 embedding 层）。
+        searchsorted+gather 全在 GPU、无同步。任何缺失 logid → 回退现算整个 batch。"""
+        sorted_logids, rep_emb = self._rep_cache
+        logids = batch["logid"].to(sorted_logids.device)
+        rows = torch.searchsorted(sorted_logids, logids)
+        rows = rows.clamp(max=sorted_logids.numel() - 1)
+        hit = sorted_logids[rows] == logids
+        if bool(hit.all()):          # 命中全部 → 直接 gather
+            return rep_emb[rows].to(self.linear.weight.dtype)
+        return self.rep_encoder(batch)  # 有缺失 → 安全回退

    def get_sequence_causal_mask(self, seq_info):
        lengths = seq_info[1:] - seq_info[:-1]
@@ -673,6 +688,9 @@ class CTRModel(nn.Module):
        return create_block_mask(mask_mod, B=None, H=None, Q_LEN=S, KV_LEN=S, device=device)

    def forward(self, batch):
+        if self._rep_cache is not None:
+            seq_input = self._gather_rep(batch)   # 用预计算缓存，跳过 embedding 层
+        else:
            seq_input = self.rep_encoder(batch)
        user_offsets = batch["user_offsets"]
        attn = _resolve_attn(seq_input.device)
@@ -697,6 +715,38 @@ class CTRModel(nn.Module):
        return pred_logits, moe_loss


+# ============================================================
+# RepEncoder 预计算缓存
+# ============================================================
+
+def build_rep_cache(model, item_dict, user_seq, test_logids_ordered,
+                    max_feasign_per_slot, device, batch_users=200):
+    """预计算所有 item 的 RepEncoder 向量（context-free），按 logid 排序存入 model._rep_cache。
+
+    复用 CTRTestSeqDataset + collate + model.rep_encoder，保证与 model(batch) 内的
+    RepEncoder 输出逐位一致。注意：必须用与评测端一致的 max_feasign_per_slot（基线为 {1:2}），
+    否则缓存的 item 向量与 batch 实际特征不符。
+    """
+    ds = CTRTestSeqDataset(
+        test_logids_ordered=test_logids_ordered, item_dict=item_dict,
+        user_seq=user_seq, max_feasign_per_slot=max_feasign_per_slot, max_ctx_len=None)
+    loader = DataLoader(ds, batch_size=batch_users, shuffle=False, num_workers=0,
+                        collate_fn=make_collate_fn(ds.max_slot_id))
+    logid_chunks, emb_chunks = [], []
+    model.eval()
+    with torch.inference_mode():
+        for batch in loader:
+            batch = move_batch_to_device(batch, device)
+            rep = model.rep_encoder(batch)              # [num_tokens, d_model]
+            logid_chunks.append(batch["logid"].to(device))
+            emb_chunks.append(rep)
+    logids = torch.cat(logid_chunks)
+    emb = torch.cat(emb_chunks)
+    order = torch.argsort(logids)
+    model._rep_cache = (logids[order].contiguous(), emb[order].contiguous())
+    return model._rep_cache
+
+
 # ============================================================
 # 模型加载入口
 # ============================================================
@@ -779,6 +829,29 @@ def load_model(ckpt_path, device='cuda:0'):
    print(f"[INFO] attention={_resolve_attn(dev)}, "
          f"moe={'dense' if CONFIG.get('vectorize_moe', True) else 'loop'}")

+    # === 预计算 RepEncoder 缓存（不计时阶段）===
+    if CONFIG.get("precompute_rep", False) and model._rep_cache is None:
+        try:
+            ds_dir = None
+            for cand in (Path(ckpt_path).parent / "dataset", Path("dataset"),
+                         Path(__file__).parent / "dataset"):
+                if cand.exists():
+                    ds_dir = cand
+                    break
+            if ds_dir is not None:
+                history = ds_dir / "history"
+                test_csv = ds_dir / "test.csv"
+                files = (sorted(history.glob("*.csv")) if history.exists() else []) + [test_csv]
+                item_dict, user_seq = load_sample_files(files)
+                test_logids = list(load_logids_from_file(test_csv))
+                build_rep_cache(model, item_dict, user_seq, test_logids, {1: 2}, dev)
+                print(f"[INFO] rep cache built: {model._rep_cache[0].numel()} items")
+            else:
+                print("[INFO] dataset/ not found, skip rep precompute (fallback to in-batch)")
+        except Exception as e:
+            print(f"[WARNING] rep precompute failed ({e}), fallback to in-batch RepEncoder")
+            model._rep_cache = None
+
    if CONFIG.get("compile", False):
        try:
            model = torch.compile(model, dynamic=True)