From 47c89cc76d15e4167a0cb53ace34fbef43ab28ad Mon Sep 17 00:00:00 2001 From: =?UTF-8?q?=E5=88=98=E8=88=AA=E5=AE=87?= <3364451258@qq.com> Date: Fri, 12 Jun 2026 22:12:36 +0800 Subject: [PATCH] =?UTF-8?q?docs:=20=E6=B7=BB=E5=8A=A0=E8=AF=84=E6=B5=8B?= =?UTF-8?q?=E7=8E=AF=E5=A2=83=E3=80=81=E5=90=88=E8=A7=84=E8=BE=B9=E7=95=8C?= =?UTF-8?q?=EF=BC=88Q&A=EF=BC=89=E3=80=81=E6=9B=B4=E6=96=B0=E4=BC=98?= =?UTF-8?q?=E5=8C=96=E8=B7=AF=E7=BA=BF?= MIME-Version: 1.0 Content-Type: text/plain; charset=UTF-8 Content-Transfer-Encoding: 8bit --- CLAUDE.md | 30 ++++++++++++++++++++++++++---- 1 file changed, 26 insertions(+), 4 deletions(-) diff --git a/CLAUDE.md b/CLAUDE.md index 5e5b916..cc6b121 100644 --- a/CLAUDE.md +++ b/CLAUDE.md @@ -100,6 +100,28 @@ score_model = ((AUC - 0.65) * 1000 + (0.15 - |PCOC - 1|) / 0.15 * 10) / 360 score_all = score_latency * 70 + score_model * 30 ``` +### 评测环境 + +- **硬件**: NVIDIA A800 (80GB, SM80) +- **软件**: Python 3.10 + PyTorch 2.6.0 +- **评测数据集 ≠ baseline 数据集**(AUC 天然有差异) + +### 优化合规边界(来自官方 Q&A) + +| 操作 | 状态 | 说明 | +|------|------|------| +| 量化(FP16/INT8) | ✅ 允许 | | +| Flash Attention | ✅ 允许 | 数学等价实现 | +| 参数级剪枝/稀疏化(权重置零/mask,形状不变) | ✅ 允许 | 权重矩阵大小、层数、head 数、FFN 维度均不变 | +| 减少 Transformer 层数 | ❌ 违规 | 改变组网结构 | +| 减少 hidden 维度 | ❌ 违规 | 改变张量形状 | +| 删除 attention head | ❌ 违规 | 改变组网结构 | +| 减少 FFN channel | ❌ 违规 | 改变组网结构 | +| 序列采样/截断 | ❌ 违规 | | +| 对测试集训练 | ❌ 违规 | | + +**策略指标以 baseline 为上限**,指标下降会扣分,超出范围直接 0 分。 + ## 优化路线图(来自 `推理优化方案.md`) Baseline 数据:推理 229s,AUC 0.759,PCOC 1.110,得分 25.85。 @@ -107,10 +129,10 @@ Baseline 数据:推理 229s,AUC 0.759,PCOC 1.110,得分 25.85。 1. ✅ **接口对齐** — 确认能在评测系统跑通(得分 > 0) 2. ✅ **FP16 量化** — `model.half()`,Embedding 保留 FP32,152s 3. ✅ **Flash Attention** — 替换 `scaled_dot_product` 为 `F.scaled_dot_product_attention`,94.5s -4. 🔲 **torch.compile** — `mode="reduce-overhead"`,待验证 -5. 🔲 **数据流优化** — 缓存时预转 FP16 + 预搬到 GPU -6. 🔲 **MoE 优化** — 统计 expert 负载,合并/移除低频 expert -7. 🔲 **INT8 量化**(可选)— 精度风险较高,仅在前几步不够时尝试 +4. 🔲 **torch.compile(default)** — 纯算子融合,不用 CUDA Graph,待验证 +5. ✅ **inference_mode()** — 替代 `no_grad()`,关闭版本追踪 +6. ⚠️ **MoE Top-1 gating** — 已提交,人工审核判定中(k=2→1,未改层数/维度/shape) +7. 🔲 **2:4 结构化稀疏** — A800 原生加速,权重形状不变(显式允许) CUDA Graph 已评估并放弃(batch 形状不固定,不适用)。