独行录
这是你的作品?免费认领后可编辑主页、直接接收买家与合作者私信。GitHub 一键认领 →

RTDMD

服务

强化少步生成器,实现奖励倾斜分布匹配

👁 4 浏览0 下载上线 2026/5/28
GitHub官网EmailWebsiteWebsite
RTDMD
介绍
RTDMD是一个两阶段框架,结合了分布匹配蒸馏与基于奖励的强化学习,以优化少步流生成器。通过最小化到*奖励倾斜教师分布*的KL散度,该方法自然地分解为**分布匹配**项和**奖励最大化**项。在4个推理步骤下,RTDMD在SD3-M/SD3.5-M/FLUX.2 4B上达到了新的SOTA表现。此项目适合对深度学习、图像生成及强化学习感兴趣的开发者和技术研究人员。
# 深度学习# 图像生成# 强化学习

用户评价

还没有评价,来做第一个吧。

还没有评价,来写下第一条吧。

主理人
Harahan

Ph.D. @ HKUST; B.Eng @ BUAA

📍 Hong Kong SAR

相关推荐