feat: collate段内去重+计数 → embedding_bag per_sample_weights(减查表带宽,数学等价)
collate(不计时)把段内重复sign折叠成(唯一,次数),embedding_bag用per_sample_weights=次数。 slot19等高重复段读量大降。攻最大块(embedding_bag 37%带宽)。走已验证的slot key通路(非新key)。 等价测试+bench --collate-dedup。默认关待验证。 Co-Authored-By: Claude Opus 4.8 <noreply@anthropic.com>
This commit is contained in:
@@ -344,6 +344,7 @@ def _parse_args():
|
||||
ap.add_argument("--emb-fp16", action="store_true", help="Embedding表转FP16(查表带宽减半,测AUC)")
|
||||
ap.add_argument("--dedup-emb", action="store_true", help="查表前对sign去重(减少大表随机访存)")
|
||||
ap.add_argument("--emb-bag", action="store_true", help="F.embedding_bag 融合查表+池化")
|
||||
ap.add_argument("--collate-dedup", action="store_true", help="collate段内去重+计数(减查表带宽)")
|
||||
ap.add_argument("--no-moe-baddbmm", action="store_true", help="关闭 MoE baddbmm(用 einsum 对照)")
|
||||
ap.add_argument("--no-skip-moe-loss", action="store_true", help="不跳过 moe_loss(对照)")
|
||||
ap.add_argument("--logit-bias", type=float, default=None, help="PCOC校准:logit偏移(本地验证PCOC→1.0)")
|
||||
@@ -398,6 +399,8 @@ if __name__ == "__main__":
|
||||
cfg["dedup_embedding"] = True
|
||||
if a.emb_bag:
|
||||
cfg["use_embedding_bag"] = True
|
||||
if a.collate_dedup:
|
||||
cfg["collate_dedup"] = True
|
||||
if a.no_moe_baddbmm:
|
||||
cfg["moe_baddbmm"] = False
|
||||
if a.no_skip_moe_loss:
|
||||
|
||||
Reference in New Issue
Block a user