Lære Implementering på Ægte Datasæt

Stryg for at vise menuen

Efter at have øvet K-means på dummydata, kan du nu anvende det på et virkeligt datasæt: wine dataset. Virkelige datasæt indeholder kompleksiteter som uklare klyngestrukturer og forskellige skalaer for attributter, hvilket giver en mere praktisk klyngeudfordring.

Du bruger funktionen datasets.load_wine() til at indlæse dette datasæt. Wine dataset indeholder forskellige egenskaber for forskellige vine. Målet er at undersøge, om K-means kan identificere klynger, der afspejler vinsimilituder baseret på disse egenskaber.

Virkelige data kræver ofte forbehandling. Feature scaling kan være nødvendig for at sikre, at alle egenskaber bidrager lige meget til afstandsberegninger i K-means.

For at finde det optimale antal klynger bruger du igen:

WSS-metoden: analyser elbow-plottet for et interval af K-værdier. Elbows kan være mindre tydelige i virkelige data;
Silhouette score-metoden: undersøg Silhouette-plottet og gennemsnitlige scores for at finde det bedste K. Scores kan være mere variable end med dummydata.

Visualiseringer er nøglen til at forstå resultaterne:

Plotning af 3 udvalgte egenskaber i et 3D-plot af wine gør det muligt visuelt at inspicere datadistributionen i et reduceret feature space, uden brug af dimensionalitetsreduktion;
WSS-plot til identifikation af elbow;
Silhouette-plot til vurdering af klyngekvalitet.

K-means-klynger visualiseret på 3-feature 3D-plot af wine-data, der viser klyngetildelinger inden for dette reducerede feature space.

Var alt klart?

Tak for dine kommentarer!

Sektion 3. Kapitel 6

Spørg AI

Spørg om hvad som helst eller prøv et af de foreslåede spørgsmål for at starte vores chat

Sektion 3. Kapitel 6