Implementierung an Einem Realen Datensatz
Swipe um das Menü anzuzeigen
Nachdem Sie K-Means mit Dummy-Daten geübt haben, können Sie es nun auf einen realen Datensatz anwenden: den wine dataset. Reale Datensätze bringen Komplexitäten wie unklare Cluster-Strukturen und unterschiedliche Merkmals-Skalen mit sich und bieten somit eine praxisnähere Clustering-Herausforderung.
Sie verwenden die Funktion datasets.load_wine(), um diesen Datensatz zu laden. Der wine dataset enthält verschiedene Attribute unterschiedlicher Weine. Ziel ist es zu prüfen, ob K-Means Cluster aufdecken kann, die Weinsimilaritäten anhand dieser Attribute widerspiegeln.
Reale Daten erfordern häufig eine Vorverarbeitung. Feature Scaling kann notwendig sein, damit alle Merkmale gleichwertig zu den Distanzberechnungen in K-Means beitragen.
Um die optimale Anzahl an Clustern zu finden, verwenden Sie erneut:
-
WSS-Methode: Analyse des Elbow-Plots für verschiedene K-Werte. Elbows sind bei realen Daten möglicherweise weniger deutlich erkennbar;
-
Silhouette-Score-Methode: Untersuchung des Silhouette-Plots und der durchschnittlichen Scores zur Bestimmung des besten K. Die Scores können variabler sein als bei Dummy-Daten.
Visualisierungen sind entscheidend für das Verständnis der Ergebnisse:
-
Darstellung von 3 ausgewählten Merkmalen in einem 3D-Plot des wine dataset ermöglicht eine visuelle Überprüfung der Datenverteilung im reduzierten Merkmalsraum, ohne Dimensionsreduktion;
-
WSS-Plot zur Identifikation des Elbows;
-
Silhouette-Plot zur Bewertung der Cluster-Qualität.
K-Means-Cluster visualisiert im 3-Merkmale-3D-Plot des wine dataset, wobei die Cluster-Zuordnungen in diesem reduzierten Merkmalsraum dargestellt werden.
Danke für Ihr Feedback!
Fragen Sie AI
Fragen Sie AI
Fragen Sie alles oder probieren Sie eine der vorgeschlagenen Fragen, um unser Gespräch zu beginnen