Files
CTI-Inference-Opt/CLAUDE.md
T
Serendipity d0bbb8f3e2 chore: 初始化 CTI 推理优化项目
- baseline infer.py + requirements.txt + build_env.sh
- GRAB / HSTU 两篇核心论文
- 比赛规则和提交接口说明
- 项目 CLAUDE.md
2026-06-03 13:49:30 +08:00

2.2 KiB
Raw Blame History

百度商业AI技术创新大赛 — 生成式推荐广告排序推理性能优化

比赛信息

  • 全称: 百度商业AI技术创新大赛 (CTI) 2026
  • 赛题: 生成式推荐广告排序推理性能优化
  • 主办: 百度商业 / 百度飞桨 / NVIDIA 技术合作
  • 平台: AI Studio
  • 大赛官网: http://cti.baidu.com
  • 奖池: ¥19W(含 NV-DGX-Spark
  • 报名截止: 2026/06/26 11:59:59
  • 夏令营决赛: 2026年7月(4天3晚,包交通食宿)

赛题核心

给定基于 Transformer 的生成式推荐广告排序模型(GRAB),在不改变模型结构、不在测试集上训练的前提下,极致优化推理性能。

双门槛评分

维度 要求 不达标后果
推理效率 纯推理 ≤ 5min,环境构建 ≤ 20min 总分 0
策略效果 AUC ≥ 0.65PCOC ∈ [0.85, 1.15] 总分 0

提交格式

xxx.zip 包含:

  • infer.py — 推理入口脚本
  • build_env.sh — 环境构建脚本
  • requirements.txt — Python 依赖
  • 可选:打包的 Python 环境、量化后的模型文件等

注意:不要包含数据集文件夹,不要修改模型权重参数

约束

  • 组网不可进行策略性改动
  • 不可对测试集进行训练
  • 每天最多提交 10 次

技术背景

基于两篇核心论文:

  1. GRAB (百度, 2026) — 比赛 baseline 模型

    • arXiv: 2602.01865
    • 核心:CamA 多通道注意力 + STS 两阶段训练
    • 模型规模:6.5M11.3M 参数
  2. HSTU (Meta, 2024) — GRAB 的架构基础

    • arXiv: 2402.17152 (ICML 2024)
    • 核心:Pointwise Aggregated Attention + 算子融合
    • 比 FlashAttention2 Transformer 快 5.3~15.2 倍

推理优化方向(按优先级)

  1. 模型量化 — FP16/INT8Paddle-TensorRT
  2. Flash Attention — 减少注意力显存和计算
  3. 算子融合 — 减少 kernel launch 开销
  4. 序列精简 — 压缩/裁剪冗余历史 token
  5. 多通道合并 — CamA 通道剪枝或共享

提交记录

日期 提交次数 得分 优化手段 备注
- - - - -