9128b60e9d
所有 slot 的 sign id 合并为一次 embedding lookup,再按 slot 拆分做 segment_reduce。 数学等价,纯 GPU 算子优化。
所有 slot 的 sign id 合并为一次 embedding lookup,再按 slot 拆分做 segment_reduce。 数学等价,纯 GPU 算子优化。