docs: 添加评测环境、合规边界（Q&A）、更新优化路线

2026-06-12 22:12:36 +08:00
parent f7e1fbfbdc
commit 47c89cc76d
1 changed files with 26 additions and 4 deletions
@@ -100,6 +100,28 @@ score_model   = ((AUC - 0.65) * 1000 + (0.15 - |PCOC - 1|) / 0.15 * 10) / 360
 score_all     = score_latency * 70 + score_model * 30
 ```
 ### 评测环境
 - **硬件**: NVIDIA A800 (80GB, SM80)
 - **软件**: Python 3.10 + PyTorch 2.6.0
 - **评测数据集 ≠ baseline 数据集**（AUC 天然有差异）
 ### 优化合规边界（来自官方 Q&A）
 | 操作 | 状态 | 说明 |
 |------|------|------|
 | 量化（FP16/INT8） | ✅ 允许 | |
 | Flash Attention | ✅ 允许 | 数学等价实现 |
 | 参数级剪枝/稀疏化（权重置零/mask，形状不变） | ✅ 允许 | 权重矩阵大小、层数、head 数、FFN 维度均不变 |
 | 减少 Transformer 层数 | ❌ 违规 | 改变组网结构 |
 | 减少 hidden 维度 | ❌ 违规 | 改变张量形状 |
 | 删除 attention head | ❌ 违规 | 改变组网结构 |
 | 减少 FFN channel | ❌ 违规 | 改变组网结构 |
 | 序列采样/截断 | ❌ 违规 | |
 | 对测试集训练 | ❌ 违规 | |
 **策略指标以 baseline 为上限**，指标下降会扣分，超出范围直接 0 分。
 ## 优化路线图（来自 `推理优化方案.md`）
 Baseline 数据：推理 229s，AUC 0.759，PCOC 1.110，得分 25.85。
@@ -107,10 +129,10 @@ Baseline 数据：推理 229s，AUC 0.759，PCOC 1.110，得分 25.85。
 1. ✅ **接口对齐** — 确认能在评测系统跑通（得分 > 0）
 2. ✅ **FP16 量化** — `model.half()`，Embedding 保留 FP32，152s
 3. ✅ **Flash Attention** — 替换 `scaled_dot_product` 为 `F.scaled_dot_product_attention`，94.5s
-4. 🔲 **torch.compile** — `mode="reduce-overhead"`，待验证
+4. 🔲 **torch.compile(default)** — 纯算子融合，不用 CUDA Graph，待验证
-5. 🔲 **数据流优化** — 缓存时预转 FP16 + 预搬到 GPU
+5. ✅ **inference_mode()** — 替代 `no_grad()`，关闭版本追踪
-6. 🔲 **MoE 优化** — 统计 expert 负载，合并/移除低频 expert
+6. ⚠️ **MoE Top-1 gating** — 已提交，人工审核判定中（k=2→1，未改层数/维度/shape）
-7. 🔲 **INT8 量化**（可选）— 精度风险较高，仅在前几步不够时尝试
+7. 🔲 **2:4 结构化稀疏** — A800 原生加速，权重形状不变（显式允许）
 CUDA Graph 已评估并放弃（batch 形状不固定，不适用）。