Lære Implementering på Virkelig Datasett

Sveip for å vise menyen

Etter å ha øvd på K-means med testdata, kan du nå bruke det på et virkelig datasett: wine dataset. Virkelige datasett har ofte kompleksiteter som uklare klyngestrukturer og varierende skala på egenskaper, noe som gir en mer praktisk klyngeutfordring.

Du bruker funksjonen datasets.load_wine() for å laste inn dette datasettet. Wine dataset inneholder ulike attributter for forskjellige viner. Målet er å se om K-means kan finne klynger som reflekterer vinsimilariteter basert på disse attributtene.

Virkelige data krever ofte forhåndsbehandling. Skalering av egenskaper kan være nødvendig for å sikre at alle egenskaper bidrar likt til avstandsberegningene i K-means.

For å finne det optimale antallet klynger bruker du igjen:

WSS-metoden: analyser albueplottet for ulike K-verdier. Albuer kan være mindre tydelige i virkelige data;
Silhouette score-metoden: undersøk Silhouette-plottet og gjennomsnittsscorene for å finne beste K. Scorene kan være mer varierende enn med testdata.

Visualiseringer er nøkkelen til å forstå resultatene:

Plotte 3 utvalgte egenskaper i et 3D-plott av wine gir oss mulighet til å visuelt inspisere datadistribusjonen i et redusert egenskapsrom, uten bruk av dimensjonsreduksjon;
WSS-plott for å identifisere albuepunkt;
Silhouette-plott for klyngekvalitet.

K-means-klynger visualisert i 3-egenskaps 3D-plottet av wine-dataene, som viser klyngetilhørighet i dette reduserte egenskapsrommet.

Alt var klart?

Takk for tilbakemeldingene dine!

Seksjon 3. Kapittel 6

Spør AI

Spør om hva du vil, eller prøv ett av de foreslåtte spørsmålene for å starte chatten vår

Seksjon 3. Kapittel 6