Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Lernen Gruppierung Numerischer Daten | Faktoren
Einführung in R: Teil I
course content

Kursinhalt

Einführung in R: Teil I

Einführung in R: Teil I

1. Grundlegende Syntax und Operationen
2. Grundlegende Datentypen und Vektoren
3. Faktoren

book
Gruppierung Numerischer Daten

Um numerische Daten in Gruppen zu kategorisieren, können Sie die cut()-Funktion in R verwenden, die jeder Zahl basierend auf angegebenen Intervallen eine Kategorie zuweist. Wenn Sie beispielsweise eine kontinuierliche Variable wie die Körpergröße haben, können Sie Personen basierend auf Größenbereichen als 'groß', 'mittel' oder 'klein' kategorisieren.

So können Sie es verwenden:

Unter den aufgeführten Parametern sind diese entscheidend für die Kategorisierung von Daten:

  • x ist der numerische Vektor, der kategorisiert werden soll;
  • breaks kann eine ganze Zahl sein, die die Anzahl der Intervalle angibt, oder ein Vektor von Schnittpunkten;
  • labels geben Namen für die Kategorien an;
  • right gibt an, ob die Intervalle rechts geschlossen sein sollen;
  • ordered_result bestimmt, ob die resultierenden Faktoren eine Reihenfolge haben sollen.

Um drei Kategorien zu erstellen, setzen Sie breaks auf 3 oder geben Sie einen Vektor mit vier Schnittpunkten an, um drei Intervalle zu bilden, zum Beispiel (a,b], (b,c], (c,d].

1234567
# Vector of heights heights <- c(170, 165, 195, 172, 189, 156, 178, 198, 157, 182, 171, 184, 163, 176, 169, 153) # Convert into factor by cutting into intervals heights_f <- cut(heights, breaks = c(0, 160, 190, 250), labels = c('small', 'medium', 'tall'), ordered_result = T) heights_f # Output the factor variable
copy

Für unser Beispiel zur Kategorisierung der Körpergröße wählen wir c(0, 160, 190, 250) für breaks, um die Daten in drei Gruppen zu unterteilen: (0, 160], (160, 190] und (190, 250]. Wir setzen auch ordered_result auf TRUE, um eine logische Reihenfolge zwischen den Kategorien zu definieren (z.B. klein < mittel < groß).

Aufgabe

Swipe to start coding

  1. Gegeben ein Vektor von numerischen Noten, so kategorisieren Sie diese als Faktorstufen:

    • [0, 60) - F;
    • [60, 75) - D;
    • [75, 85) - C;
    • [85, 95) - B;
    • [95, 100) - A.
  2. Erstellen Sie eine Variable grades_f, die die Faktorstufen mit den angegebenen Unterteilungen und Bezeichnungen speichert, wobei die Reihenfolge berücksichtigt wird, und verwenden Sie right = FALSE, um die linke Grenze der Intervalle einzuschließen;

    • breaks - c(0, 60, 75, 85, 95, 100);
    • labels - c('F', 'D', 'C', 'B', 'A');
    • ordered_result - TRUE (um die Faktorwerte zu ordnen);
    • right - FALSE (um die linke Grenze eines Intervalls einzuschließen, nicht die rechte).
  3. Geben Sie den Inhalt von grades_f aus.

Lösung

Switch to desktopWechseln Sie zum Desktop, um in der realen Welt zu übenFahren Sie dort fort, wo Sie sind, indem Sie eine der folgenden Optionen verwenden
War alles klar?

Wie können wir es verbessern?

Danke für Ihr Feedback!

Abschnitt 3. Kapitel 5
toggle bottom row

book
Gruppierung Numerischer Daten

Um numerische Daten in Gruppen zu kategorisieren, können Sie die cut()-Funktion in R verwenden, die jeder Zahl basierend auf angegebenen Intervallen eine Kategorie zuweist. Wenn Sie beispielsweise eine kontinuierliche Variable wie die Körpergröße haben, können Sie Personen basierend auf Größenbereichen als 'groß', 'mittel' oder 'klein' kategorisieren.

So können Sie es verwenden:

Unter den aufgeführten Parametern sind diese entscheidend für die Kategorisierung von Daten:

  • x ist der numerische Vektor, der kategorisiert werden soll;
  • breaks kann eine ganze Zahl sein, die die Anzahl der Intervalle angibt, oder ein Vektor von Schnittpunkten;
  • labels geben Namen für die Kategorien an;
  • right gibt an, ob die Intervalle rechts geschlossen sein sollen;
  • ordered_result bestimmt, ob die resultierenden Faktoren eine Reihenfolge haben sollen.

Um drei Kategorien zu erstellen, setzen Sie breaks auf 3 oder geben Sie einen Vektor mit vier Schnittpunkten an, um drei Intervalle zu bilden, zum Beispiel (a,b], (b,c], (c,d].

1234567
# Vector of heights heights <- c(170, 165, 195, 172, 189, 156, 178, 198, 157, 182, 171, 184, 163, 176, 169, 153) # Convert into factor by cutting into intervals heights_f <- cut(heights, breaks = c(0, 160, 190, 250), labels = c('small', 'medium', 'tall'), ordered_result = T) heights_f # Output the factor variable
copy

Für unser Beispiel zur Kategorisierung der Körpergröße wählen wir c(0, 160, 190, 250) für breaks, um die Daten in drei Gruppen zu unterteilen: (0, 160], (160, 190] und (190, 250]. Wir setzen auch ordered_result auf TRUE, um eine logische Reihenfolge zwischen den Kategorien zu definieren (z.B. klein < mittel < groß).

Aufgabe

Swipe to start coding

  1. Gegeben ein Vektor von numerischen Noten, so kategorisieren Sie diese als Faktorstufen:

    • [0, 60) - F;
    • [60, 75) - D;
    • [75, 85) - C;
    • [85, 95) - B;
    • [95, 100) - A.
  2. Erstellen Sie eine Variable grades_f, die die Faktorstufen mit den angegebenen Unterteilungen und Bezeichnungen speichert, wobei die Reihenfolge berücksichtigt wird, und verwenden Sie right = FALSE, um die linke Grenze der Intervalle einzuschließen;

    • breaks - c(0, 60, 75, 85, 95, 100);
    • labels - c('F', 'D', 'C', 'B', 'A');
    • ordered_result - TRUE (um die Faktorwerte zu ordnen);
    • right - FALSE (um die linke Grenze eines Intervalls einzuschließen, nicht die rechte).
  3. Geben Sie den Inhalt von grades_f aus.

Lösung

Switch to desktopWechseln Sie zum Desktop, um in der realen Welt zu übenFahren Sie dort fort, wo Sie sind, indem Sie eine der folgenden Optionen verwenden
War alles klar?

Wie können wir es verbessern?

Danke für Ihr Feedback!

Abschnitt 3. Kapitel 5
Switch to desktopWechseln Sie zum Desktop, um in der realen Welt zu übenFahren Sie dort fort, wo Sie sind, indem Sie eine der folgenden Optionen verwenden
We're sorry to hear that something went wrong. What happened?
some-alt