Leer Diffusiemodellen en Probabilistische Generatieve Benaderingen

Veeg om het menu te tonen

Diffusie-gebaseerde Generatie Begrijpen

Diffusiemodellen vormen een krachtig type AI-model dat data genereert – met name afbeeldingen – door te leren hoe een proces van het toevoegen van willekeurige ruis om te keren. Stel je voor dat je een heldere afbeelding langzaam ziet vervagen tot een wazig beeld, vergelijkbaar met statische ruis op een televisie. Een diffusiemodel leert het tegenovergestelde te doen: het neemt afbeeldingen met ruis en reconstrueert de oorspronkelijke afbeelding door stap voor stap de ruis te verwijderen.

Het proces omvat twee hoofd fasen:

Voorwaarts proces (diffusie): voegt geleidelijk willekeurige ruis toe aan een afbeelding over meerdere stappen, waardoor deze wordt omgezet in pure ruis;
Omgekeerd proces (denoising): een neuraal netwerk leert de ruis stap voor stap te verwijderen, waardoor de oorspronkelijke afbeelding wordt gereconstrueerd uit de versie met ruis.

Diffusiemodellen staan bekend om hun vermogen om afbeeldingen van hoge kwaliteit en realistische aard te produceren. De training is doorgaans stabieler in vergelijking met modellen zoals GANs, wat ze zeer aantrekkelijk maakt binnen moderne generatieve AI.

Denoising Diffusion Probabilistic Models (DDPMs)

Denoising diffusion probabilistische modellen (DDPMs) zijn een populair type diffusiemodel dat probabilistische principes en deep learning toepast om ruis uit afbeeldingen te verwijderen op een stapsgewijze manier.

Voorwaarts proces

In het voorwaartse proces wordt gestart met een echte afbeelding $x_0$ en wordt er geleidelijk Gaussische ruis toegevoegd over $T$ tijdstappen:

q(x_t|x_{t-1})= \mathcal{N}(x_t;\sqrt{1-\beta_t}x_{t-1},\beta_tI)

Waarbij:

$x_t$ : ruisversie van de invoer op tijdstap;
$\beta_t$ : klein variantieschema dat bepaalt hoeveel ruis wordt toegevoegd;
$\mathcal{N}$ : Gaussische verdeling.

De totale toegevoegde ruis tot en met stap kan ook als volgt worden uitgedrukt:

q(x_t|x_0)= \mathcal{N}(x_t;\sqrt{\={\alpha}_t}x_0,(1-\={\alpha}_t)I)

Waarbij:

$\=\alpha_t=\prod_{s=1}^t(1-\beta_s)$

Omgekeerd proces

Het doel van het model is om het omgekeerde van dit proces te leren. Een neuraal netwerk, geparametriseerd door $\theta$ , voorspelt het gemiddelde en de variantie van de gedenoisede distributie:

p_\theta(x_{t-1}|x_t) = \mathcal{N}(x_{t-1};\mu_\theta(x_t,t), \Sigma_\theta(x_t,t))

waarbij:

$x_t$ : ruisachtig beeld op tijdstip $t$ ;
$x_{t-1}$ : voorspeld minder ruisachtig beeld op stap $t-1$ ;
$\mu_\theta$ : voorspeld gemiddelde van het neuraal netwerk;
$\Sigma_\theta$ : voorspelde variantie van het neuraal netwerk.

Verliesfunctie

Het trainen omvat het minimaliseren van het verschil tussen de werkelijke ruis en de door het model voorspelde ruis met behulp van het volgende doel:

L_{simple} = \mathbb{E}_{x_0, \epsilon, t} \left[ ||\epsilon - \epsilon_0 \left( \sqrt{\=\alpha_t}x_0 + \sqrt{1-\=\alpha_t}\epsilon, t \right)||^2 \right]

waarbij:

$x_t$ : originele invoerafbeelding;
$\epsilon$ : willekeurige Gaussische ruis;
$t$ : tijdstap tijdens diffusie;
$\epsilon_\theta$ : voorspelling van ruis door het neuraal netwerk;
$\={\alpha}_t$ : product van ruisparameters tot stap $t$ .

Dit helpt het model beter te worden in het verwijderen van ruis, waardoor het vermogen om realistische data te genereren verbetert.

Score-gebaseerde Generatieve Modellering

Score-gebaseerde modellen vormen een andere klasse van diffusiemodellen. In plaats van direct het omgekeerde ruisproces te leren, leren ze de scorefunctie:

\nabla_x\log{p(x)}

waarbij:

$\nabla_x\log{p(x)}$ : de gradiënt van de log-kansdichtheid ten opzichte van invoer $x$ . Dit wijst in de richting van toenemende waarschijnlijkheid onder de datadistributie;
$p(x)$ : de kansverdeling van de data.

Deze functie geeft het model aan in welke richting het beeld moet bewegen om meer op echte data te lijken. Deze modellen gebruiken vervolgens een bemonsteringsmethode zoals Langevin-dynamica om ruisachtige data geleidelijk naar gebieden met hoge waarschijnlijkheid te verplaatsen.

Score-gebaseerde modellen werken vaak in continue tijd met behulp van stochastische differentiaalvergelijkingen (SDE's). Deze continue benadering biedt flexibiliteit en kan hoogwaardige generaties opleveren voor verschillende datatypes.

Toepassingen in Hoge-Resolutie Beeldgeneratie

Diffusiemodellen hebben generatieve taken getransformeerd, met name in de generatie van beelden met hoge resolutie. Belangrijke toepassingen zijn:

Stable Diffusion: een latent diffusiemodel dat beelden genereert op basis van tekstprompts. Het combineert een U-Net-gebaseerd denoisingmodel met een variational autoencoder (VAE) om in de latente ruimte te opereren;
DALL·E 2: combineert CLIP-embeddings en diffusiemodel-decoding om zeer realistische en semantische beelden te genereren vanuit tekst;
MidJourney: een diffusiemodel-gebaseerd beeldgeneratieplatform dat bekend staat om het produceren van hoogwaardige, artistiek gestileerde beelden op basis van abstracte of creatieve prompts.

Deze modellen worden gebruikt voor kunstgeneratie, fotorealistische synthese, inpainting, superresolutie en meer.

Samenvatting

Diffusiemodellen markeren een nieuw tijdperk in generatief modelleren door gegevensgeneratie te benaderen als een stochastisch proces in omgekeerde tijd. Via DDPM's en score-gebaseerde modellen bereiken ze robuuste training, hoge samplekwaliteit en overtuigende resultaten over diverse modaliteiten. Hun basis in probabilistische en thermodynamische principes maakt ze zowel wiskundig elegant als praktisch krachtig.

Was alles duidelijk?

Bedankt voor je feedback!

Sectie 2. Hoofdstuk 9

Vraag AI

Vraag wat u wilt of probeer een van de voorgestelde vragen om onze chat te starten.

Sectie 2. Hoofdstuk 9

Diffusiemodellen en Probabilistische Generatieve Benaderingen

Diffusie-gebaseerde Generatie Begrijpen

Denoising Diffusion Probabilistic Models (DDPMs)

Voorwaarts proces

Omgekeerd proces

Verliesfunctie

Score-gebaseerde Generatieve Modellering

Toepassingen in Hoge-Resolutie Beeldgeneratie

Samenvatting

1. Wat is het belangrijkste idee achter diffusiemodellen voor generatieve doeleinden?

2. Wat gebruikt het DDPM-voorwaartse proces om bij elke stap ruis toe te voegen?

3. Welke van de volgende beschrijft het beste de rol van de scorefunctie $\nabla_x\log{p(x)}$ in score-gebaseerde generatieve modellering?

Diffusiemodellen en Probabilistische Generatieve Benaderingen

Diffusie-gebaseerde Generatie Begrijpen

Denoising Diffusion Probabilistic Models (DDPMs)

Voorwaarts proces

Omgekeerd proces

Verliesfunctie

Score-gebaseerde Generatieve Modellering

Toepassingen in Hoge-Resolutie Beeldgeneratie

Samenvatting

1. Wat is het belangrijkste idee achter diffusiemodellen voor generatieve doeleinden?

2. Wat gebruikt het DDPM-voorwaartse proces om bij elke stap ruis toe te voegen?

3. Welke van de volgende beschrijft het beste de rol van de scorefunctie ∇xlog⁡p(x)\nabla_x\log{p(x)}∇x​logp(x) in score-gebaseerde generatieve modellering?

3. Welke van de volgende beschrijft het beste de rol van de scorefunctie $\nabla_x\log{p(x)}$ in score-gebaseerde generatieve modellering?