Sélection de Données - Techniques Avancées
Vous savez déjà comment sélectionner des lignes et des colonnes individuelles à l'aide de l'indexation de base. Il est maintenant temps d'aller plus loin et d'explorer comment sélectionner plusieurs lignes et colonnes en utilisant à la fois le R de base et le package dplyr. Ces techniques sont essentielles lorsque vous souhaitez vous concentrer sur des parties spécifiques d'un jeu de données ou préparer vos données pour une analyse ultérieure.
Sélection de plusieurs colonnes
R de base
Il est possible de sélectionner plusieurs colonnes en combinant leurs positions ou leurs noms avec la fonction c(). Le résultat est un data frame réduit contenant uniquement les colonnes spécifiées.
Utilisation des positions de colonnes :
selected_data_base <- df[, c(1, 2, 3)]
Utilisation des noms de colonnes :
selected_data_base <- df[, c("name", "selling_price", "transmission")]
dplyr
La fonction select() permet de sélectionner directement les noms de colonnes.
selected_data_dplyr <- df %>%
select(km_driven, fuel, transmission)
Indexation de valeurs uniques
Pour accéder à une valeur spécifique, indiquer à la fois le numéro de ligne et de colonne. Utile pour vérifier ou déboguer des points de données individuels.
df[1, 2] # accesses the value in row 1, column 2
Découpage des lignes
Il est parfois nécessaire de travailler uniquement avec les premières lignes ou avec des lignes spécifiques selon leur position.
Base R
Il est possible de sélectionner plusieurs lignes en spécifiant l’indice de la première et de la dernière ligne, séparés par un :.
first_5_rows_base <- df[1:5, ]
dplyr
La fonction slice() permet de sélectionner une plage de lignes en lui passant les indices souhaités.
first_5_rows_dplyr <- df %>%
slice(1:5)
Merci pour vos commentaires !
Demandez à l'IA
Demandez à l'IA
Posez n'importe quelle question ou essayez l'une des questions suggérées pour commencer notre discussion
Awesome!
Completion rate improved to 4
Sélection de Données - Techniques Avancées
Glissez pour afficher le menu
Vous savez déjà comment sélectionner des lignes et des colonnes individuelles à l'aide de l'indexation de base. Il est maintenant temps d'aller plus loin et d'explorer comment sélectionner plusieurs lignes et colonnes en utilisant à la fois le R de base et le package dplyr. Ces techniques sont essentielles lorsque vous souhaitez vous concentrer sur des parties spécifiques d'un jeu de données ou préparer vos données pour une analyse ultérieure.
Sélection de plusieurs colonnes
R de base
Il est possible de sélectionner plusieurs colonnes en combinant leurs positions ou leurs noms avec la fonction c(). Le résultat est un data frame réduit contenant uniquement les colonnes spécifiées.
Utilisation des positions de colonnes :
selected_data_base <- df[, c(1, 2, 3)]
Utilisation des noms de colonnes :
selected_data_base <- df[, c("name", "selling_price", "transmission")]
dplyr
La fonction select() permet de sélectionner directement les noms de colonnes.
selected_data_dplyr <- df %>%
select(km_driven, fuel, transmission)
Indexation de valeurs uniques
Pour accéder à une valeur spécifique, indiquer à la fois le numéro de ligne et de colonne. Utile pour vérifier ou déboguer des points de données individuels.
df[1, 2] # accesses the value in row 1, column 2
Découpage des lignes
Il est parfois nécessaire de travailler uniquement avec les premières lignes ou avec des lignes spécifiques selon leur position.
Base R
Il est possible de sélectionner plusieurs lignes en spécifiant l’indice de la première et de la dernière ligne, séparés par un :.
first_5_rows_base <- df[1:5, ]
dplyr
La fonction slice() permet de sélectionner une plage de lignes en lui passant les indices souhaités.
first_5_rows_dplyr <- df %>%
slice(1:5)
Merci pour vos commentaires !