基于 baseline 代码分析、GRAB/HSTU 论文研读、官方提交规范的三重审查: - 发现并记录 baseline 接口与评测规范的 3 处致命不匹配 - 6 个优化方案,按优先级排序,每个方案标注合规性和风险 - 移除不适用于本场景的 CUDA Graph 方案 - 新增 GRAB/HSTU 论文的 markdown 转录文件