Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Leer Diffusiemodellen en Probabilistische Generatieve Benaderingen | Theoretische Grondslagen
Diepe Generatieve Modellen

bookDiffusiemodellen en Probabilistische Generatieve Benaderingen

Diffusie-gebaseerde Generatie Begrijpen

Diffusiemodellen vormen een krachtig type AI-model dat data genereert – met name afbeeldingen – door te leren hoe een proces van het toevoegen van willekeurige ruis om te keren. Stel je voor dat je een heldere afbeelding langzaam ziet vervagen tot een wazig beeld, vergelijkbaar met statische ruis op een televisie. Een diffusiemodel leert het tegenovergestelde te doen: het neemt afbeeldingen met ruis en reconstrueert de oorspronkelijke afbeelding door stap voor stap de ruis te verwijderen.

Het proces omvat twee hoofd fasen:

  • Voorwaarts proces (diffusie): voegt geleidelijk willekeurige ruis toe aan een afbeelding over meerdere stappen, waardoor deze wordt omgezet in pure ruis;
  • Omgekeerd proces (denoising): een neuraal netwerk leert de ruis stap voor stap te verwijderen, waardoor de oorspronkelijke afbeelding wordt gereconstrueerd uit de versie met ruis.

Diffusiemodellen staan bekend om hun vermogen om afbeeldingen van hoge kwaliteit en realistische aard te produceren. De training is doorgaans stabieler in vergelijking met modellen zoals GANs, wat ze zeer aantrekkelijk maakt binnen moderne generatieve AI.

Denoising Diffusion Probabilistic Models (DDPMs)

Denoising diffusion probabilistische modellen (DDPMs) zijn een populair type diffusiemodel dat probabilistische principes en deep learning toepast om ruis uit afbeeldingen te verwijderen op een stapsgewijze manier.

Voorwaarts proces

In het voorwaartse proces wordt gestart met een echte afbeelding x0x_0 en wordt er geleidelijk Gaussische ruis toegevoegd over TT tijdstappen:

q(xtxt1)=N(xt;1βtxt1,βtI)q(x_t|x_{t-1})= \mathcal{N}(x_t;\sqrt{1-\beta_t}x_{t-1},\beta_tI)

Waarbij:

  • xtx_t: ruisversie van de invoer op tijdstap;
  • βt\beta_t: klein variantieschema dat bepaalt hoeveel ruis wordt toegevoegd;
  • N\mathcal{N}: Gaussische verdeling.

De totale toegevoegde ruis tot en met stap kan ook als volgt worden uitgedrukt:

q(xtx0)=N(xt;αˉtx0,(1αˉt)I)q(x_t|x_0)= \mathcal{N}(x_t;\sqrt{\={\alpha}_t}x_0,(1-\={\alpha}_t)I)

Waarbij:

  • αˉt=s=1t(1βs)\=\alpha_t=\prod_{s=1}^t(1-\beta_s)

Omgekeerd proces

Het doel van het model is om het omgekeerde van dit proces te leren. Een neuraal netwerk, geparametriseerd door θ\theta, voorspelt het gemiddelde en de variantie van de gedenoisede distributie:

pθ(xt1xt)=N(xt1;μθ(xt,t),Σθ(xt,t))p_\theta(x_{t-1}|x_t) = \mathcal{N}(x_{t-1};\mu_\theta(x_t,t), \Sigma_\theta(x_t,t))

waarbij:

  • xtx_t: ruisachtig beeld op tijdstip tt;
  • xt1x_{t-1}: voorspeld minder ruisachtig beeld op stap t1t-1;
  • μθ\mu_\theta: voorspeld gemiddelde van het neuraal netwerk;
  • Σθ\Sigma_\theta: voorspelde variantie van het neuraal netwerk.

Verliesfunctie

Het trainen omvat het minimaliseren van het verschil tussen de werkelijke ruis en de door het model voorspelde ruis met behulp van het volgende doel:

Lsimple=Ex0,ϵ,t[ϵϵ0(αˉtx0+1αˉtϵ,t)2]L_{simple} = \mathbb{E}_{x_0, \epsilon, t} \left[ ||\epsilon - \epsilon_0 \left( \sqrt{\=\alpha_t}x_0 + \sqrt{1-\=\alpha_t}\epsilon, t \right)||^2 \right]

waarbij:

  • xtx_t: originele invoerafbeelding;
  • ϵ\epsilon: willekeurige Gaussische ruis;
  • tt: tijdstap tijdens diffusie;
  • ϵθ\epsilon_\theta: voorspelling van ruis door het neuraal netwerk;
  • αˉt\={\alpha}_t: product van ruisparameters tot stap tt.

Dit helpt het model beter te worden in het verwijderen van ruis, waardoor het vermogen om realistische data te genereren verbetert.

Score-gebaseerde Generatieve Modellering

Score-gebaseerde modellen vormen een andere klasse van diffusie­modellen. In plaats van direct het omgekeerde ruisproces te leren, leren ze de scorefunctie:

xlogp(x)\nabla_x\log{p(x)}

waarbij:

  • xlogp(x)\nabla_x\log{p(x)}: de gradiënt van de log-kansdichtheid ten opzichte van invoer xx. Dit wijst in de richting van toenemende waarschijnlijkheid onder de datadistributie;
  • p(x)p(x): de kansverdeling van de data.

Deze functie geeft het model aan in welke richting het beeld moet bewegen om meer op echte data te lijken. Deze modellen gebruiken vervolgens een bemonsteringsmethode zoals Langevin-dynamica om ruisachtige data geleidelijk naar gebieden met hoge waarschijnlijkheid te verplaatsen.

Score-gebaseerde modellen werken vaak in continue tijd met behulp van stochastische differentiaalvergelijkingen (SDE's). Deze continue benadering biedt flexibiliteit en kan hoogwaardige generaties opleveren voor verschillende datatypes.

Toepassingen in Hoge-Resolutie Beeldgeneratie

Diffusiemodellen hebben generatieve taken getransformeerd, met name in de generatie van beelden met hoge resolutie. Belangrijke toepassingen zijn:

  • Stable Diffusion: een latent diffusiemodel dat beelden genereert op basis van tekstprompts. Het combineert een U-Net-gebaseerd denoisingmodel met een variational autoencoder (VAE) om in de latente ruimte te opereren;
  • DALL·E 2: combineert CLIP-embeddings en diffusiemodel-decoding om zeer realistische en semantische beelden te genereren vanuit tekst;
  • MidJourney: een diffusiemodel-gebaseerd beeldgeneratieplatform dat bekend staat om het produceren van hoogwaardige, artistiek gestileerde beelden op basis van abstracte of creatieve prompts.

Deze modellen worden gebruikt voor kunstgeneratie, fotorealistische synthese, inpainting, superresolutie en meer.

Samenvatting

Diffusiemodellen markeren een nieuw tijdperk in generatief modelleren door gegevensgeneratie te benaderen als een stochastisch proces in omgekeerde tijd. Via DDPM's en score-gebaseerde modellen bereiken ze robuuste training, hoge samplekwaliteit en overtuigende resultaten over diverse modaliteiten. Hun basis in probabilistische en thermodynamische principes maakt ze zowel wiskundig elegant als praktisch krachtig.

1. Wat is het belangrijkste idee achter diffusiemodellen voor generatieve doeleinden?

2. Wat gebruikt het DDPM-voorwaartse proces om bij elke stap ruis toe te voegen?

3. Welke van de volgende beschrijft het beste de rol van de scorefunctie xlogp(x)\nabla_x\log{p(x)} in score-gebaseerde generatieve modellering?

question mark

Wat is het belangrijkste idee achter diffusiemodellen voor generatieve doeleinden?

Select the correct answer

question mark

Wat gebruikt het DDPM-voorwaartse proces om bij elke stap ruis toe te voegen?

Select the correct answer

question mark

Welke van de volgende beschrijft het beste de rol van de scorefunctie xlogp(x)\nabla_x\log{p(x)} in score-gebaseerde generatieve modellering?

Select the correct answer

Was alles duidelijk?

Hoe kunnen we het verbeteren?

Bedankt voor je feedback!

Sectie 2. Hoofdstuk 9

Vraag AI

expand

Vraag AI

ChatGPT

Vraag wat u wilt of probeer een van de voorgestelde vragen om onze chat te starten.

bookDiffusiemodellen en Probabilistische Generatieve Benaderingen

Veeg om het menu te tonen

Diffusie-gebaseerde Generatie Begrijpen

Diffusiemodellen vormen een krachtig type AI-model dat data genereert – met name afbeeldingen – door te leren hoe een proces van het toevoegen van willekeurige ruis om te keren. Stel je voor dat je een heldere afbeelding langzaam ziet vervagen tot een wazig beeld, vergelijkbaar met statische ruis op een televisie. Een diffusiemodel leert het tegenovergestelde te doen: het neemt afbeeldingen met ruis en reconstrueert de oorspronkelijke afbeelding door stap voor stap de ruis te verwijderen.

Het proces omvat twee hoofd fasen:

  • Voorwaarts proces (diffusie): voegt geleidelijk willekeurige ruis toe aan een afbeelding over meerdere stappen, waardoor deze wordt omgezet in pure ruis;
  • Omgekeerd proces (denoising): een neuraal netwerk leert de ruis stap voor stap te verwijderen, waardoor de oorspronkelijke afbeelding wordt gereconstrueerd uit de versie met ruis.

Diffusiemodellen staan bekend om hun vermogen om afbeeldingen van hoge kwaliteit en realistische aard te produceren. De training is doorgaans stabieler in vergelijking met modellen zoals GANs, wat ze zeer aantrekkelijk maakt binnen moderne generatieve AI.

Denoising Diffusion Probabilistic Models (DDPMs)

Denoising diffusion probabilistische modellen (DDPMs) zijn een populair type diffusiemodel dat probabilistische principes en deep learning toepast om ruis uit afbeeldingen te verwijderen op een stapsgewijze manier.

Voorwaarts proces

In het voorwaartse proces wordt gestart met een echte afbeelding x0x_0 en wordt er geleidelijk Gaussische ruis toegevoegd over TT tijdstappen:

q(xtxt1)=N(xt;1βtxt1,βtI)q(x_t|x_{t-1})= \mathcal{N}(x_t;\sqrt{1-\beta_t}x_{t-1},\beta_tI)

Waarbij:

  • xtx_t: ruisversie van de invoer op tijdstap;
  • βt\beta_t: klein variantieschema dat bepaalt hoeveel ruis wordt toegevoegd;
  • N\mathcal{N}: Gaussische verdeling.

De totale toegevoegde ruis tot en met stap kan ook als volgt worden uitgedrukt:

q(xtx0)=N(xt;αˉtx0,(1αˉt)I)q(x_t|x_0)= \mathcal{N}(x_t;\sqrt{\={\alpha}_t}x_0,(1-\={\alpha}_t)I)

Waarbij:

  • αˉt=s=1t(1βs)\=\alpha_t=\prod_{s=1}^t(1-\beta_s)

Omgekeerd proces

Het doel van het model is om het omgekeerde van dit proces te leren. Een neuraal netwerk, geparametriseerd door θ\theta, voorspelt het gemiddelde en de variantie van de gedenoisede distributie:

pθ(xt1xt)=N(xt1;μθ(xt,t),Σθ(xt,t))p_\theta(x_{t-1}|x_t) = \mathcal{N}(x_{t-1};\mu_\theta(x_t,t), \Sigma_\theta(x_t,t))

waarbij:

  • xtx_t: ruisachtig beeld op tijdstip tt;
  • xt1x_{t-1}: voorspeld minder ruisachtig beeld op stap t1t-1;
  • μθ\mu_\theta: voorspeld gemiddelde van het neuraal netwerk;
  • Σθ\Sigma_\theta: voorspelde variantie van het neuraal netwerk.

Verliesfunctie

Het trainen omvat het minimaliseren van het verschil tussen de werkelijke ruis en de door het model voorspelde ruis met behulp van het volgende doel:

Lsimple=Ex0,ϵ,t[ϵϵ0(αˉtx0+1αˉtϵ,t)2]L_{simple} = \mathbb{E}_{x_0, \epsilon, t} \left[ ||\epsilon - \epsilon_0 \left( \sqrt{\=\alpha_t}x_0 + \sqrt{1-\=\alpha_t}\epsilon, t \right)||^2 \right]

waarbij:

  • xtx_t: originele invoerafbeelding;
  • ϵ\epsilon: willekeurige Gaussische ruis;
  • tt: tijdstap tijdens diffusie;
  • ϵθ\epsilon_\theta: voorspelling van ruis door het neuraal netwerk;
  • αˉt\={\alpha}_t: product van ruisparameters tot stap tt.

Dit helpt het model beter te worden in het verwijderen van ruis, waardoor het vermogen om realistische data te genereren verbetert.

Score-gebaseerde Generatieve Modellering

Score-gebaseerde modellen vormen een andere klasse van diffusie­modellen. In plaats van direct het omgekeerde ruisproces te leren, leren ze de scorefunctie:

xlogp(x)\nabla_x\log{p(x)}

waarbij:

  • xlogp(x)\nabla_x\log{p(x)}: de gradiënt van de log-kansdichtheid ten opzichte van invoer xx. Dit wijst in de richting van toenemende waarschijnlijkheid onder de datadistributie;
  • p(x)p(x): de kansverdeling van de data.

Deze functie geeft het model aan in welke richting het beeld moet bewegen om meer op echte data te lijken. Deze modellen gebruiken vervolgens een bemonsteringsmethode zoals Langevin-dynamica om ruisachtige data geleidelijk naar gebieden met hoge waarschijnlijkheid te verplaatsen.

Score-gebaseerde modellen werken vaak in continue tijd met behulp van stochastische differentiaalvergelijkingen (SDE's). Deze continue benadering biedt flexibiliteit en kan hoogwaardige generaties opleveren voor verschillende datatypes.

Toepassingen in Hoge-Resolutie Beeldgeneratie

Diffusiemodellen hebben generatieve taken getransformeerd, met name in de generatie van beelden met hoge resolutie. Belangrijke toepassingen zijn:

  • Stable Diffusion: een latent diffusiemodel dat beelden genereert op basis van tekstprompts. Het combineert een U-Net-gebaseerd denoisingmodel met een variational autoencoder (VAE) om in de latente ruimte te opereren;
  • DALL·E 2: combineert CLIP-embeddings en diffusiemodel-decoding om zeer realistische en semantische beelden te genereren vanuit tekst;
  • MidJourney: een diffusiemodel-gebaseerd beeldgeneratieplatform dat bekend staat om het produceren van hoogwaardige, artistiek gestileerde beelden op basis van abstracte of creatieve prompts.

Deze modellen worden gebruikt voor kunstgeneratie, fotorealistische synthese, inpainting, superresolutie en meer.

Samenvatting

Diffusiemodellen markeren een nieuw tijdperk in generatief modelleren door gegevensgeneratie te benaderen als een stochastisch proces in omgekeerde tijd. Via DDPM's en score-gebaseerde modellen bereiken ze robuuste training, hoge samplekwaliteit en overtuigende resultaten over diverse modaliteiten. Hun basis in probabilistische en thermodynamische principes maakt ze zowel wiskundig elegant als praktisch krachtig.

1. Wat is het belangrijkste idee achter diffusiemodellen voor generatieve doeleinden?

2. Wat gebruikt het DDPM-voorwaartse proces om bij elke stap ruis toe te voegen?

3. Welke van de volgende beschrijft het beste de rol van de scorefunctie xlogp(x)\nabla_x\log{p(x)} in score-gebaseerde generatieve modellering?

question mark

Wat is het belangrijkste idee achter diffusiemodellen voor generatieve doeleinden?

Select the correct answer

question mark

Wat gebruikt het DDPM-voorwaartse proces om bij elke stap ruis toe te voegen?

Select the correct answer

question mark

Welke van de volgende beschrijft het beste de rol van de scorefunctie xlogp(x)\nabla_x\log{p(x)} in score-gebaseerde generatieve modellering?

Select the correct answer

Was alles duidelijk?

Hoe kunnen we het verbeteren?

Bedankt voor je feedback!

Sectie 2. Hoofdstuk 9
some-alt