Files
CTI-Inference-Opt/代码
OwnerSunshine530 3d28f61a98 feat: 分块SDPA注意力(--attn chunked),按用户边界切块降O(S²)
每块~chunk_users个用户、块内因果SDPA(评测端已验证、无嵌套开销),sum(块S²)
远小于总S²。仅1次同步读切分边界。之前本地bs=16快13%被MoE同步吃掉,现MoE
同步已消除,切块红利应全露出。CONFIG.attn=chunked/chunk_users;等价测试已加。

Co-Authored-By: Claude Opus 4.8 <noreply@anthropic.com>
2026-06-15 13:13:13 +08:00
..