From 47c89cc76d15e4167a0cb53ace34fbef43ab28ad Mon Sep 17 00:00:00 2001
From: =?UTF-8?q?=E5=88=98=E8=88=AA=E5=AE=87?= <3364451258@qq.com>
Date: Fri, 12 Jun 2026 22:12:36 +0800
Subject: [PATCH] =?UTF-8?q?docs:=20=E6=B7=BB=E5=8A=A0=E8=AF=84=E6=B5=8B?=
 =?UTF-8?q?=E7=8E=AF=E5=A2=83=E3=80=81=E5=90=88=E8=A7=84=E8=BE=B9=E7=95=8C?=
 =?UTF-8?q?=EF=BC=88Q&A=EF=BC=89=E3=80=81=E6=9B=B4=E6=96=B0=E4=BC=98?=
 =?UTF-8?q?=E5=8C=96=E8=B7=AF=E7=BA=BF?=
MIME-Version: 1.0
Content-Type: text/plain; charset=UTF-8
Content-Transfer-Encoding: 8bit

---
 CLAUDE.md | 30 ++++++++++++++++++++++++++----
 1 file changed, 26 insertions(+), 4 deletions(-)

diff --git a/CLAUDE.md b/CLAUDE.md
index 5e5b916..cc6b121 100644
--- a/CLAUDE.md
+++ b/CLAUDE.md
@@ -100,6 +100,28 @@ score_model   = ((AUC - 0.65) * 1000 + (0.15 - |PCOC - 1|) / 0.15 * 10) / 360
 score_all     = score_latency * 70 + score_model * 30
 ```
 
+### 评测环境
+
+- **硬件**: NVIDIA A800 (80GB, SM80)
+- **软件**: Python 3.10 + PyTorch 2.6.0
+- **评测数据集 ≠ baseline 数据集**（AUC 天然有差异）
+
+### 优化合规边界（来自官方 Q&A）
+
+| 操作 | 状态 | 说明 |
+|------|------|------|
+| 量化（FP16/INT8） | ✅ 允许 | |
+| Flash Attention | ✅ 允许 | 数学等价实现 |
+| 参数级剪枝/稀疏化（权重置零/mask，形状不变） | ✅ 允许 | 权重矩阵大小、层数、head 数、FFN 维度均不变 |
+| 减少 Transformer 层数 | ❌ 违规 | 改变组网结构 |
+| 减少 hidden 维度 | ❌ 违规 | 改变张量形状 |
+| 删除 attention head | ❌ 违规 | 改变组网结构 |
+| 减少 FFN channel | ❌ 违规 | 改变组网结构 |
+| 序列采样/截断 | ❌ 违规 | |
+| 对测试集训练 | ❌ 违规 | |
+
+**策略指标以 baseline 为上限**，指标下降会扣分，超出范围直接 0 分。
+
 ## 优化路线图（来自 `推理优化方案.md`）
 
 Baseline 数据：推理 229s，AUC 0.759，PCOC 1.110，得分 25.85。
@@ -107,10 +129,10 @@ Baseline 数据：推理 229s，AUC 0.759，PCOC 1.110，得分 25.85。
 1. ✅ **接口对齐** — 确认能在评测系统跑通（得分 > 0）
 2. ✅ **FP16 量化** — `model.half()`，Embedding 保留 FP32，152s
 3. ✅ **Flash Attention** — 替换 `scaled_dot_product` 为 `F.scaled_dot_product_attention`，94.5s
-4. 🔲 **torch.compile** — `mode="reduce-overhead"`，待验证
-5. 🔲 **数据流优化** — 缓存时预转 FP16 + 预搬到 GPU
-6. 🔲 **MoE 优化** — 统计 expert 负载，合并/移除低频 expert
-7. 🔲 **INT8 量化**（可选）— 精度风险较高，仅在前几步不够时尝试
+4. 🔲 **torch.compile(default)** — 纯算子融合，不用 CUDA Graph，待验证
+5. ✅ **inference_mode()** — 替代 `no_grad()`，关闭版本追踪
+6. ⚠️ **MoE Top-1 gating** — 已提交，人工审核判定中（k=2→1，未改层数/维度/shape）
+7. 🔲 **2:4 结构化稀疏** — A800 原生加速，权重形状不变（显式允许）
 
 CUDA Graph 已评估并放弃（batch 形状不固定，不适用）。