Gallery
Guides
News
Forums

Gallery
Guides
News
Forums
Log In
Sign Up

News

All
Resource
Update
Research
News
Misc

Showing
Newest ▾
Newest
Most Liked
Most Commented
articles of
Past Month ▾
Last 24 Hours
Last 7 Days
Past Month
Past Year
All time

Diffusion Singularity

Navigation

Home
News

Support Us on Ko-fi

MAVEN: A Multi-Agent Framework for Multicultural Text-to-Video Generation

Resource

cultural-fidelity
multi-agent
prompt-engineering
temporal-consistency

MAVEN: A Multi-Agent Framework for Multicultural Text-to-Video Generation

Refines prompts with parallel or sequential expert agents to boost cultural fidelity in text-to-video generation across mono- and cross-cultural prompts.

github.com/AIM-SCU/CRAFT

arxiv.org/abs/2605.16716

12 days ago

Comments

Stay Fair! Ensuring Group Fairness in Diffusion Models Across Guidance Scales

Research

bias decomposition
classifier-free guidance
fairness constraints
guidance scale

Stay Fair! Ensuring Group Fairness in Diffusion Models Across Guidance Scales

Decouples fairness from guidance scale in diffusion models by equalizing guidance distributions or offsetting null embeddings

github.com/Kim-Myeong-Soo/stay-fair

arxiv.org/abs/2605.28036

12 days ago

Comments

Compositional Text-to-Image Generation Via Region-aware Bimodal Direct Preference Optimization

Research

BiDPO
diffusion-dpo
multimodal-training
region-guided

Compositional Text-to-Image Generation Via Region-aware Bimodal Direct Preference Optimization

BiDPO jointly optimizes image and text preferences with region-guided alignment to boost compositional fidelity in T2I generation.

arxiv.org/abs/2605.28615

github.com/anzeameol/BiDPO

12 days ago

Comments

OSP-Next: Efficient High-Quality Video Generation with Sparse Sequence Parallelism, HiF8 Quantization, and Reinforcement Learning

Research

flashattention
quantiﬁcation
rl fine-tuning
skiparse-2d
sparse attention
ssp parallelism
uplex sequence parallelism

OSP-Next: Efficient High-Quality Video Generation with Sparse Sequence Parallelism, HiF8 Quantization, and Reinforcement Learning

Boosts text-to-video efficiency by combining hybrid full-sparse attention with Skiparse-2D and Sparse Sequence Parallelism to cut communication and maintain quality.

arxiv.org/abs/2605.28691

12 days ago

Comments

SmartDirector: Keyframe-Conditioned Cinematic Video Generation with Narrative Pacing Control

Research

keyframe conditioning
movie-curated dataset
multiframe narrative
narrative coherence
spatial-temporal refinement
two-stage generation

SmartDirector: Keyframe-Conditioned Cinematic Video Generation with Narrative Pacing Control

Directs narrative-aware video generation by conditioning on multiple keyframes, enabling single-shot, multi-shot, and extension scenarios

arxiv.org/abs/2605.27891

12 days ago

Comments

MRT: Masked Region Transformer for Layered Image Generation and Editing at Scale

Research

image editing
layered image generation
masked diffusion
region diffusion

MRT: Masked Region Transformer for Layered Image Generation and Editing at Scale

Unifies layers in a 20B masked region diffusion model for multi-layer transparent image generation and editing

arxiv.org/abs/2605.27235

13 days ago

Comments

Paris 2.0: A Decentralized Diffusion Model for Video Generation

Research

clip similarity
decentralized training
fvd
Paris 2.0
temporal coherence

Paris 2.0: A Decentralized Diffusion Model for Video Generation

Enables temporally coherent video generation with decentralized training, doubling FVD improvement and boosting CLIP similarity and aesthetics under equal compute.

arxiv.org/abs/2605.26064

13 days ago

Comments