Kursinhalt
Einführung in R: Teil I
Einführung in R: Teil I
Gruppierung Numerischer Daten
Um numerische Daten in Gruppen zu kategorisieren, können Sie die cut()
-Funktion in R verwenden, die jeder Zahl basierend auf angegebenen Intervallen eine Kategorie zuweist. Wenn Sie beispielsweise eine kontinuierliche Variable wie die Körpergröße haben, können Sie Personen basierend auf Größenbereichen als 'groß', 'mittel' oder 'klein' kategorisieren.
So können Sie es verwenden:
Unter den aufgeführten Parametern sind diese entscheidend für die Kategorisierung von Daten:
x
ist der numerische Vektor, der kategorisiert werden soll;breaks
kann eine ganze Zahl sein, die die Anzahl der Intervalle angibt, oder ein Vektor von Schnittpunkten;labels
geben Namen für die Kategorien an;right
gibt an, ob die Intervalle rechts geschlossen sein sollen;ordered_result
bestimmt, ob die resultierenden Faktoren eine Reihenfolge haben sollen.
Um drei Kategorien zu erstellen, setzen Sie breaks
auf 3
oder geben Sie einen Vektor mit vier Schnittpunkten an, um drei Intervalle zu bilden, zum Beispiel (a,b], (b,c], (c,d].
# Vector of heights heights <- c(170, 165, 195, 172, 189, 156, 178, 198, 157, 182, 171, 184, 163, 176, 169, 153) # Convert into factor by cutting into intervals heights_f <- cut(heights, breaks = c(0, 160, 190, 250), labels = c('small', 'medium', 'tall'), ordered_result = T) heights_f # Output the factor variable
Für unser Beispiel zur Kategorisierung der Körpergröße wählen wir c(0, 160, 190, 250)
für breaks
, um die Daten in drei Gruppen zu unterteilen: (0, 160], (160, 190] und (190, 250]. Wir setzen auch ordered_result
auf TRUE
, um eine logische Reihenfolge zwischen den Kategorien zu definieren (z.B. klein < mittel < groß).
Swipe to start coding
-
Gegeben ein Vektor von numerischen Noten, so kategorisieren Sie diese als Faktorstufen:
- [0, 60) - F;
- [60, 75) - D;
- [75, 85) - C;
- [85, 95) - B;
- [95, 100) - A.
-
Erstellen Sie eine Variable
grades_f
, die die Faktorstufen mit den angegebenen Unterteilungen und Bezeichnungen speichert, wobei die Reihenfolge berücksichtigt wird, und verwenden Sieright = FALSE
, um die linke Grenze der Intervalle einzuschließen;breaks
-c(0, 60, 75, 85, 95, 100)
;labels
-c('F', 'D', 'C', 'B', 'A')
;ordered_result
-TRUE
(um die Faktorwerte zu ordnen);right
-FALSE
(um die linke Grenze eines Intervalls einzuschließen, nicht die rechte).
-
Geben Sie den Inhalt von
grades_f
aus.
Lösung
Danke für Ihr Feedback!
Gruppierung Numerischer Daten
Um numerische Daten in Gruppen zu kategorisieren, können Sie die cut()
-Funktion in R verwenden, die jeder Zahl basierend auf angegebenen Intervallen eine Kategorie zuweist. Wenn Sie beispielsweise eine kontinuierliche Variable wie die Körpergröße haben, können Sie Personen basierend auf Größenbereichen als 'groß', 'mittel' oder 'klein' kategorisieren.
So können Sie es verwenden:
Unter den aufgeführten Parametern sind diese entscheidend für die Kategorisierung von Daten:
x
ist der numerische Vektor, der kategorisiert werden soll;breaks
kann eine ganze Zahl sein, die die Anzahl der Intervalle angibt, oder ein Vektor von Schnittpunkten;labels
geben Namen für die Kategorien an;right
gibt an, ob die Intervalle rechts geschlossen sein sollen;ordered_result
bestimmt, ob die resultierenden Faktoren eine Reihenfolge haben sollen.
Um drei Kategorien zu erstellen, setzen Sie breaks
auf 3
oder geben Sie einen Vektor mit vier Schnittpunkten an, um drei Intervalle zu bilden, zum Beispiel (a,b], (b,c], (c,d].
# Vector of heights heights <- c(170, 165, 195, 172, 189, 156, 178, 198, 157, 182, 171, 184, 163, 176, 169, 153) # Convert into factor by cutting into intervals heights_f <- cut(heights, breaks = c(0, 160, 190, 250), labels = c('small', 'medium', 'tall'), ordered_result = T) heights_f # Output the factor variable
Für unser Beispiel zur Kategorisierung der Körpergröße wählen wir c(0, 160, 190, 250)
für breaks
, um die Daten in drei Gruppen zu unterteilen: (0, 160], (160, 190] und (190, 250]. Wir setzen auch ordered_result
auf TRUE
, um eine logische Reihenfolge zwischen den Kategorien zu definieren (z.B. klein < mittel < groß).
Swipe to start coding
-
Gegeben ein Vektor von numerischen Noten, so kategorisieren Sie diese als Faktorstufen:
- [0, 60) - F;
- [60, 75) - D;
- [75, 85) - C;
- [85, 95) - B;
- [95, 100) - A.
-
Erstellen Sie eine Variable
grades_f
, die die Faktorstufen mit den angegebenen Unterteilungen und Bezeichnungen speichert, wobei die Reihenfolge berücksichtigt wird, und verwenden Sieright = FALSE
, um die linke Grenze der Intervalle einzuschließen;breaks
-c(0, 60, 75, 85, 95, 100)
;labels
-c('F', 'D', 'C', 'B', 'A')
;ordered_result
-TRUE
(um die Faktorwerte zu ordnen);right
-FALSE
(um die linke Grenze eines Intervalls einzuschließen, nicht die rechte).
-
Geben Sie den Inhalt von
grades_f
aus.
Lösung
Danke für Ihr Feedback!