Files
CTI-Inference-Opt/代码
OwnerSunshine530 6114c78354 perf: triton wrapper 去掉 q/k/v.contiguous(),用实际stride读非连续(省13% clone开销)
profile显示triton的.contiguous()产生492次clone占13%。kernel本就用stride参数,
传q.stride()+out.stride()直接读split+permute后的非连续qkv,免clone。

Co-Authored-By: Claude Opus 4.8 <noreply@anthropic.com>
2026-06-17 13:44:10 +08:00
..