这是你的作品？免费认领后可编辑主页、直接接收买家与合作者私信。GitHub 一键认领 →

RTDMD

Name: RTDMD
Author: Harahan

服务

强化少步生成器，实现奖励倾斜分布匹配

👁 4 浏览⬇ 0 下载上线 2026/5/28

GitHub 官网 Email Website Website

介绍

RTDMD是一个两阶段框架，结合了分布匹配蒸馏与基于奖励的强化学习，以优化少步流生成器。通过最小化到*奖励倾斜教师分布*的KL散度，该方法自然地分解为**分布匹配**项和**奖励最大化**项。在4个推理步骤下，RTDMD在SD3-M/SD3.5-M/FLUX.2 4B上达到了新的SOTA表现。此项目适合对深度学习、图像生成及强化学习感兴趣的开发者和技术研究人员。

# 深度学习# 图像生成# 强化学习