Swipe um das Menü anzuzeigen

Ausreißer sind ungewöhnliche Datenpunkte, die sich deutlich vom Großteil der Daten unterscheiden. Sie können durch Eingabefehler, natürliche Schwankungen oder seltene, aber wichtige Ereignisse entstehen. Ausreißer können statistische Zusammenfassungen und Modellierungen erheblich beeinflussen.

Ein einzelner großer Ausreißer kann beispielsweise den Mittelwert erhöhen oder die Skalierung von Visualisierungen verzerren, was zu irreführenden Schlussfolgerungen führen kann.

Das Verständnis und die Erkennung von Ausreißern ist ein entscheidender Schritt in der Datenvorverarbeitung. Abhängig vom Ziel der Analyse kann entschieden werden, Ausreißer zu behalten, zu transformieren oder vollständig zu entfernen.

Visualisierung von Ausreißern mit Dichteplots

Ein Dichteplot zeigt eine geglättete Kurve, die die Verteilung einer Variablen darstellt. Gipfel zeigen Bereiche mit hoher Datenkonzentration, während lange Ausläufer oder isolierte Erhebungen auf Ausreißer oder Schiefe hindeuten können.

ggplot(df, aes(x = placement_exam_marks)) +
  geom_density(fill = "lightgreen", alpha = 0.7) +
  labs(title = "Density Plot Of Placement Exam Marks",
       x = "Placement",
       y = "Density") +
  theme_minimal()

Messung der Schiefe

Die Schiefe misst das Ausmaß der Symmetrie oder Asymmetrie einer Verteilung. Dies hilft dabei zu erkennen, ob eine Variable Ausreißer auf einer Seite der Verteilung aufweist.

skewness(df$placement_exam_marks)

Interpretation der Schiefe

Schiefe ≈ 0: ungefähr symmetrische Verteilung;
Schiefe > 0: rechts-schiefe Verteilung;
Schiefe < 0: links-schiefe Verteilung;
Schiefe > 1: stark rechts-schiefe Verteilung;
Schiefe < -1: stark links-schiefe Verteilung.

War alles klar?

Danke für Ihr Feedback!

Abschnitt 3. Kapitel 2

Fragen Sie AI

Fragen Sie alles oder probieren Sie eine der vorgeschlagenen Fragen, um unser Gespräch zu beginnen

Einführung in Ausreißer