Files
CTI-Inference-Opt/代码
OwnerSunshine530 7bb2e0f518 perf: _triton_block_meta 消除最后一个host同步(grid用shape派生上界,空block在kernel内mask空跑)
repeat_interleave(张量repeats)的D2H同步换成searchsorted+shape派生grid上界(S//BLOCK_M+n_seq+1)。
对真实block的blk_seq/blk_inseq与原实现一致;空block blk_inseq=0仅1次空迭代。延续'消同步'(最赚方向)。

Co-Authored-By: Claude Opus 4.8 <noreply@anthropic.com>
2026-06-19 20:51:37 +08:00
..