Summary  
This chapter introduces data normalization by applying min-max scaling and standard scaling to rescale numerical features to comparable ranges.  

General domain of usage  
Clustering algorithms

**Datanormalisering** er et kritisk forbehandlingssteg for mange klyngealgoritmer, inkludert K-means. Egenskaper i virkelige datasett har ofte ulike skalaer og enheter. Algoritmer som er avhengige av **avstandskalkulasjoner**, som K-means, kan bli sterkt påvirket av egenskaper med større skala. Normalisering har som mål å bringe alle egenskaper til en **lignende skala**, og forhindrer at egenskaper med større verdier dominerer klyngeprosessen.

## StandardScaler 

`StandardScaler` standardiserer egenskaper ved å fjerne gjennomsnittet og skalere til enhetsvarians. Den transformerer data til å ha et **gjennomsnitt på 0** og et **standardavvik på 1**. Dette oppnås ved å trekke fra **gjennomsnittet** og dele på **standardavviket** for hver egenskap. 

`StandardScaler` er effektiv når dataene dine er tilnærmet **normalfordelte**. Den er mye brukt og ofte en god standard normaliseringsmetode for mange algoritmer.

```python
from sklearn.preprocessing import StandardScaler

scaler = StandardScaler()
features = df[['feature1', 'feature2']]

df[['feature1', 'feature2']] = scaler.fit_transform(features)
```

## MinMaxScaler 

`MinMaxScaler` skalerer egenskaper til et spesifikt intervall, vanligvis mellom **0** og **1**. Den transformerer data ved å skalere og flytte hver egenskap individuelt slik at den er innenfor det gitte intervallet. 

`MinMaxScaler` er nyttig når du trenger verdier innenfor et **spesifikt intervall**, eller når dataene dine ikke er normalfordelte. Den bevarer formen til den **opprinnelige fordelingen**, bare skalert til det nye intervallet. 

```python
from sklearn.preprocessing import MinMaxScaler

scaler = MinMaxScaler()
features = df[['feature1', 'feature2']]

df[['feature1', 'feature2']] = scaler.fit_transform(features)
``` 

Valget mellom `StandardScaler` og `MinMaxScaler` avhenger av dataene dine og den spesifikke algoritmen. `StandardScaler` foretrekkes ofte for algoritmer som **K-means** når egenskapene er omtrent **normalfordelte**. `MinMaxScaler` kan være nyttig når du trenger **avgrensede verdier** eller når dataene ikke er normalfordelte.

Hvorfor er datanormalisering viktig ved bruk av klyngealgoritmer som K-means?

Få en solid forståelse av klyngeanalyse, en sentral usupervisert læringsteknikk for å avdekke mønstre i umerkede data. Utforsk det grunnleggende innen K-Means, hierarkisk klyngeanalyse, DBSCAN og GMM-er, og få praktisk erfaring med ekte datasett for å bygge selvtillit i anvendelse av klyngeanalyse på reelle problemer.

Fordyp deg i det grunnleggende innen klyngeanalyse og oppdag hvordan det skiller seg fra klassifisering. Utforsk sentrale algoritmer, verktøy og biblioteker som driver denne teknikken for ikke-veiledet læring for å avdekke skjulte mønstre i data.

Få en grundig forståelse av sentrale forhåndsbehandlingsteknikker som sikrer effektiv klyngeanalyse. Lær hvordan man håndterer manglende verdier, koder kategoriske egenskaper, normaliserer data og velger passende avstandsmål og koblinger for å øke nøyaktigheten i klyngeanalysen.

Behersk ferdighetene som kreves for å anvende K-Means-klynging effektivt. Lær hvordan algoritmen fungerer, bestem det optimale antallet klynger, og få praktisk erfaring ved å implementere K-Means på både syntetiske og virkelige datasett.

Utforsk det grunnleggende innen hierarkisk klynging og lær hvordan data kan grupperes i meningsfulle klynger ved hjelp av dendrogrammer. Bygg trygghet i å identifisere det optimale antallet klynger og implementere teknikken på både syntetiske og virkelige datasett.

Utforsk hvordan DBSCAN utmerker seg i å oppdage klynger med varierende former og håndtere støy i data. Lær mekanismene bak denne tetthetsbaserte algoritmen, hvordan punkter tilordnes klynger, og bruk den på både syntetiske og virkelige datasett med trygghet.

Få en grundig forståelse av gaussiske blandingsmodeller og hvordan de bruker sannsynlighet for å modellere komplekse klyngestrukturer. Prinsipper for gaussisk fordeling, utforskning av hvordan GMM fungerer, samt anvendelse på både dummydata og virkelige datasett.