这是你的作品?免费认领后可编辑主页、直接接收买家与合作者私信。GitHub 一键认领 →

RTDMD
服务强化少步生成器,实现奖励倾斜分布匹配
👁 4 浏览⬇ 0 下载上线 2026/5/28

介绍
RTDMD是一个两阶段框架,结合了分布匹配蒸馏与基于奖励的强化学习,以优化少步流生成器。通过最小化到*奖励倾斜教师分布*的KL散度,该方法自然地分解为**分布匹配**项和**奖励最大化**项。在4个推理步骤下,RTDMD在SD3-M/SD3.5-M/FLUX.2 4B上达到了新的SOTA表现。此项目适合对深度学习、图像生成及强化学习感兴趣的开发者和技术研究人员。
用户评价
还没有评价,来做第一个吧。
还没有评价,来写下第一条吧。
主理人
Harahan
Ph.D. @ HKUST; B.Eng @ BUAA
📍 Hong Kong SAR






