15个任务:测量闭环bench.py → FP32天花板/sign-id取模/混合精度/expert合并代价/ 上下文核查 → 锁定阶段A配置提交 → FlexAttention块对角注意力/MoE向量化/ embedding融合(均带数值等价测试)→ torch.compile重估 → PCOC校准 → 最终提交。 Co-Authored-By: Claude Opus 4.8 <noreply@anthropic.com>
核心结论:评分公式经两次提交验证,延迟分上限70、模型分上限~9.9, 故纯降延迟天花板~79.9;80+必须靠提升验证集AUC。方案C:阶段A找回AUC (sign-id取模/精度摆放/expert合并代价/特征与上下文完整性)优先, 阶段B结构性延迟重写(块对角注意力/MoE向量化/embedding融合/加batch)。 Co-Authored-By: Claude Opus 4.8 <noreply@anthropic.com>