docs: 添加评测环境、合规边界(Q&A)、更新优化路线

This commit is contained in:
2026-06-12 22:12:36 +08:00
parent f7e1fbfbdc
commit 47c89cc76d
+26 -4
View File
@@ -100,6 +100,28 @@ score_model = ((AUC - 0.65) * 1000 + (0.15 - |PCOC - 1|) / 0.15 * 10) / 360
score_all = score_latency * 70 + score_model * 30
```
### 评测环境
- **硬件**: NVIDIA A800 (80GB, SM80)
- **软件**: Python 3.10 + PyTorch 2.6.0
- **评测数据集 ≠ baseline 数据集**(AUC 天然有差异)
### 优化合规边界(来自官方 Q&A)
| 操作 | 状态 | 说明 |
|------|------|------|
| 量化(FP16/INT8 | ✅ 允许 | |
| Flash Attention | ✅ 允许 | 数学等价实现 |
| 参数级剪枝/稀疏化(权重置零/mask,形状不变) | ✅ 允许 | 权重矩阵大小、层数、head 数、FFN 维度均不变 |
| 减少 Transformer 层数 | ❌ 违规 | 改变组网结构 |
| 减少 hidden 维度 | ❌ 违规 | 改变张量形状 |
| 删除 attention head | ❌ 违规 | 改变组网结构 |
| 减少 FFN channel | ❌ 违规 | 改变组网结构 |
| 序列采样/截断 | ❌ 违规 | |
| 对测试集训练 | ❌ 违规 | |
**策略指标以 baseline 为上限**,指标下降会扣分,超出范围直接 0 分。
## 优化路线图(来自 `推理优化方案.md`)
Baseline 数据:推理 229sAUC 0.759PCOC 1.110,得分 25.85。
@@ -107,10 +129,10 @@ Baseline 数据:推理 229sAUC 0.759PCOC 1.110,得分 25.85。
1.**接口对齐** — 确认能在评测系统跑通(得分 > 0)
2.**FP16 量化**`model.half()`Embedding 保留 FP32152s
3.**Flash Attention** — 替换 `scaled_dot_product``F.scaled_dot_product_attention`94.5s
4. 🔲 **torch.compile**`mode="reduce-overhead"`,待验证
5. 🔲 **数据流优化** — 缓存时预转 FP16 + 预搬到 GPU
6. 🔲 **MoE 优化** — 统计 expert 负载,合并/移除低频 expert
7. 🔲 **INT8 量化**(可选)— 精度风险较高,仅在前几步不够时尝试
4. 🔲 **torch.compile(default)** — 纯算子融合,不用 CUDA Graph,待验证
5. **inference_mode()** — 替代 `no_grad()`,关闭版本追踪
6. ⚠️ **MoE Top-1 gating** — 已提交,人工审核判定中(k=2→1,未改层数/维度/shape
7. 🔲 **2:4 结构化稀疏** — A800 原生加速,权重形状不变(显式允许)
CUDA Graph 已评估并放弃(batch 形状不固定,不适用)。