Lära Implementering på Verklig Datamängd

Svep för att visa menyn

Efter att ha övat på K-means med testdata kan du nu tillämpa det på en verklig dataset: wine dataset. Verkliga dataset innebär komplexiteter som oklara klusterstrukturer och varierande skalor på attribut, vilket ger en mer praktisk klustringsutmaning.

Du kommer att använda funktionen datasets.load_wine() för att ladda denna dataset. Wine dataset innehåller olika attribut för olika viner. Målet är att se om K-means kan identifiera kluster som återspeglar vinslikheter baserat på dessa attribut.

Verkliga data kräver ofta förbehandling. Skalning av attribut kan behövas för att säkerställa att alla attribut bidrar lika mycket till avståndsberäkningarna i K-means.

För att hitta det optimala antalet kluster använder du återigen:

WSS-metoden: analysera elbow-diagrammet för olika K-värden. Elbow kan vara mindre tydlig i verkliga data;
Silhouette score-metoden: undersök Silhouette-diagrammet och medelvärden för att hitta bästa K. Poängen kan vara mer varierande än med testdata.

Visualiseringar är nyckeln till att förstå resultaten:

Plottning av 3 utvalda attribut i en 3D-plot av wine gör det möjligt att visuellt granska datadistributionen i ett reducerat attribututrymme, utan att använda dimensionsreduktion;
WSS-diagram för identifiering av elbow;
Silhouette-diagram för klusterkvalitet.

K-means-kluster visualiserade i 3-attributs 3D-plot av wine-data, som visar klustertilldelningar inom detta reducerade attribututrymme.

Var allt tydligt?

Tack för dina kommentarer!

Avsnitt 3. Kapitel 6

Fråga AI

Fråga vad du vill eller prova någon av de föreslagna frågorna för att starta vårt samtal

Avsnitt 3. Kapitel 6