SDXS: Real-Time One-Step Latent Diffusion Models with Image Conditions

Song, Yuda; Sun, Zehao; Yin, Xuanwu

Computer Science > Computer Vision and Pattern Recognition

arXiv:2403.16627 (cs)

[Submitted on 25 Mar 2024 (v1), last revised 17 Apr 2024 (this version, v2)]

Title:SDXS: Real-Time One-Step Latent Diffusion Models with Image Conditions

Authors:Yuda Song, Zehao Sun, Xuanwu Yin

View PDF HTML (experimental)

Abstract:Recent advancements in diffusion models have positioned them at the forefront of image generation. Despite their superior performance, diffusion models are not without drawbacks; they are characterized by complex architectures and substantial computational demands, resulting in significant latency due to their iterative sampling process. To mitigate these limitations, we introduce a dual approach involving model miniaturization and a reduction in sampling steps, aimed at significantly decreasing model latency. Our methodology leverages knowledge distillation to streamline the U-Net and image decoder architectures, and introduces an innovative one-step DM training technique that utilizes feature matching and score distillation. We present two models, SDXS-512 and SDXS-1024, achieving inference speeds of approximately 100 FPS (30x faster than SD v1.5) and 30 FPS (60x faster than SDXL) on a single GPU, respectively. Moreover, our training approach offers promising applications in image-conditioned control, facilitating efficient image-to-image translation.

Subjects:	Computer Vision and Pattern Recognition (cs.CV)
Cite as:	arXiv:2403.16627 [cs.CV]
	(or arXiv:2403.16627v2 [cs.CV] for this version)
	https://doi.org/10.48550/arXiv.2403.16627

Submission history

From: Yuda Song [view email]
[v1] Mon, 25 Mar 2024 11:16:23 UTC (4,895 KB)
[v2] Wed, 17 Apr 2024 02:57:58 UTC (6,458 KB)

Computer Science > Computer Vision and Pattern Recognition

Title:SDXS: Real-Time One-Step Latent Diffusion Models with Image Conditions

Submission history

Access Paper:

References & Citations

Bookmark

Bibliographic and Citation Tools

Code, Data and Media Associated with this Article

Demos

Recommenders and Search Tools

arXivLabs: experimental projects with community collaborators

Computer Science > Computer Vision and Pattern Recognition

Title:SDXS: Real-Time One-Step Latent Diffusion Models with Image Conditions

Submission history

Access Paper:

References & Citations

BibTeX formatted citation

Bookmark

Bibliographic and Citation Tools

Code, Data and Media Associated with this Article

Demos

Recommenders and Search Tools

arXivLabs: experimental projects with community collaborators