docs: 添加评测环境、合规边界(Q&A)、更新优化路线
This commit is contained in:
@@ -100,6 +100,28 @@ score_model = ((AUC - 0.65) * 1000 + (0.15 - |PCOC - 1|) / 0.15 * 10) / 360
|
|||||||
score_all = score_latency * 70 + score_model * 30
|
score_all = score_latency * 70 + score_model * 30
|
||||||
```
|
```
|
||||||
|
|
||||||
|
### 评测环境
|
||||||
|
|
||||||
|
- **硬件**: NVIDIA A800 (80GB, SM80)
|
||||||
|
- **软件**: Python 3.10 + PyTorch 2.6.0
|
||||||
|
- **评测数据集 ≠ baseline 数据集**(AUC 天然有差异)
|
||||||
|
|
||||||
|
### 优化合规边界(来自官方 Q&A)
|
||||||
|
|
||||||
|
| 操作 | 状态 | 说明 |
|
||||||
|
|------|------|------|
|
||||||
|
| 量化(FP16/INT8) | ✅ 允许 | |
|
||||||
|
| Flash Attention | ✅ 允许 | 数学等价实现 |
|
||||||
|
| 参数级剪枝/稀疏化(权重置零/mask,形状不变) | ✅ 允许 | 权重矩阵大小、层数、head 数、FFN 维度均不变 |
|
||||||
|
| 减少 Transformer 层数 | ❌ 违规 | 改变组网结构 |
|
||||||
|
| 减少 hidden 维度 | ❌ 违规 | 改变张量形状 |
|
||||||
|
| 删除 attention head | ❌ 违规 | 改变组网结构 |
|
||||||
|
| 减少 FFN channel | ❌ 违规 | 改变组网结构 |
|
||||||
|
| 序列采样/截断 | ❌ 违规 | |
|
||||||
|
| 对测试集训练 | ❌ 违规 | |
|
||||||
|
|
||||||
|
**策略指标以 baseline 为上限**,指标下降会扣分,超出范围直接 0 分。
|
||||||
|
|
||||||
## 优化路线图(来自 `推理优化方案.md`)
|
## 优化路线图(来自 `推理优化方案.md`)
|
||||||
|
|
||||||
Baseline 数据:推理 229s,AUC 0.759,PCOC 1.110,得分 25.85。
|
Baseline 数据:推理 229s,AUC 0.759,PCOC 1.110,得分 25.85。
|
||||||
@@ -107,10 +129,10 @@ Baseline 数据:推理 229s,AUC 0.759,PCOC 1.110,得分 25.85。
|
|||||||
1. ✅ **接口对齐** — 确认能在评测系统跑通(得分 > 0)
|
1. ✅ **接口对齐** — 确认能在评测系统跑通(得分 > 0)
|
||||||
2. ✅ **FP16 量化** — `model.half()`,Embedding 保留 FP32,152s
|
2. ✅ **FP16 量化** — `model.half()`,Embedding 保留 FP32,152s
|
||||||
3. ✅ **Flash Attention** — 替换 `scaled_dot_product` 为 `F.scaled_dot_product_attention`,94.5s
|
3. ✅ **Flash Attention** — 替换 `scaled_dot_product` 为 `F.scaled_dot_product_attention`,94.5s
|
||||||
4. 🔲 **torch.compile** — `mode="reduce-overhead"`,待验证
|
4. 🔲 **torch.compile(default)** — 纯算子融合,不用 CUDA Graph,待验证
|
||||||
5. 🔲 **数据流优化** — 缓存时预转 FP16 + 预搬到 GPU
|
5. ✅ **inference_mode()** — 替代 `no_grad()`,关闭版本追踪
|
||||||
6. 🔲 **MoE 优化** — 统计 expert 负载,合并/移除低频 expert
|
6. ⚠️ **MoE Top-1 gating** — 已提交,人工审核判定中(k=2→1,未改层数/维度/shape)
|
||||||
7. 🔲 **INT8 量化**(可选)— 精度风险较高,仅在前几步不够时尝试
|
7. 🔲 **2:4 结构化稀疏** — A800 原生加速,权重形状不变(显式允许)
|
||||||
|
|
||||||
CUDA Graph 已评估并放弃(batch 形状不固定,不适用)。
|
CUDA Graph 已评估并放弃(batch 形状不固定,不适用)。
|
||||||
|
|
||||||
|
|||||||
Reference in New Issue
Block a user