Que Ferons-Nous Avec les Valeurs NaN ?
Dans le chapitre précédent, vous avez obtenu le résultat :
| PassengerId | 0 |
| Survived | 0 |
| Pclass | 0 |
| Name | 0 |
| Sex | 0 |
| Age | 86 |
| SibSp | 0 |
| Parch | 0 |
| Ticket | 0 |
| Fare | 1 |
| Cabin | 327 |
| Embarked | 0 |
Le jeu de données comporte 418 lignes. Regardez la colonne Cabin, où l'on compte 327 valeurs manquantes. Il n'est pas pertinent de les remplir car nous disposons de très peu d'informations ici. Ainsi, dans ce cas, la meilleure solution consiste à supprimer la colonne qui ne nous apporte rien. L'une des raisons est que nous pourrions supprimer uniquement les lignes contenant des valeurs manquantes, mais il n'est pas envisageable de supprimer 327 lignes sur 418. Voyons donc comment procéder.
Pour supprimer une colonne, il faut appliquer la méthode .drop() au jeu de données. La syntaxe est la suivante :
# If you want to delete one column
data.drop(columns = 'column_name', inplace = True)
# If you want to delete several columns
data.drop(columns = ['column_1', 'column_2'], inplace = True)
Explication :
.drop()— méthode permettant de supprimer des colonnes ;columns = 'column_name'oucolumns = ['column_1', 'column_2']— argument de la fonction où l'on précise le ou les noms des colonnes à supprimer ;inplace = True— argument utile de pandas qui permet d'enregistrer toutes les modifications. Vous pouvez également l'utiliser dans d'autres fonctions ; nous en verrons certaines plus tard.
Swipe to start coding
Votre tâche consiste à supprimer la colonne contenant le plus grand nombre de valeurs NaN. Suivez l'algorithme :
- Supprimez la colonne
'Cabin'en utilisant l'argumentinplace = True. - Affichez
5lignes aléatoires de l'ensemble de données.
Solution
Merci pour vos commentaires !
single
Demandez à l'IA
Demandez à l'IA
Posez n'importe quelle question ou essayez l'une des questions suggérées pour commencer notre discussion
Can you explain what happens if I don't use `inplace=True`?
What should I do if I want to delete multiple columns at once?
Is there a way to undo the column deletion if I make a mistake?
Awesome!
Completion rate improved to 3.03
Que Ferons-Nous Avec les Valeurs NaN ?
Glissez pour afficher le menu
Dans le chapitre précédent, vous avez obtenu le résultat :
| PassengerId | 0 |
| Survived | 0 |
| Pclass | 0 |
| Name | 0 |
| Sex | 0 |
| Age | 86 |
| SibSp | 0 |
| Parch | 0 |
| Ticket | 0 |
| Fare | 1 |
| Cabin | 327 |
| Embarked | 0 |
Le jeu de données comporte 418 lignes. Regardez la colonne Cabin, où l'on compte 327 valeurs manquantes. Il n'est pas pertinent de les remplir car nous disposons de très peu d'informations ici. Ainsi, dans ce cas, la meilleure solution consiste à supprimer la colonne qui ne nous apporte rien. L'une des raisons est que nous pourrions supprimer uniquement les lignes contenant des valeurs manquantes, mais il n'est pas envisageable de supprimer 327 lignes sur 418. Voyons donc comment procéder.
Pour supprimer une colonne, il faut appliquer la méthode .drop() au jeu de données. La syntaxe est la suivante :
# If you want to delete one column
data.drop(columns = 'column_name', inplace = True)
# If you want to delete several columns
data.drop(columns = ['column_1', 'column_2'], inplace = True)
Explication :
.drop()— méthode permettant de supprimer des colonnes ;columns = 'column_name'oucolumns = ['column_1', 'column_2']— argument de la fonction où l'on précise le ou les noms des colonnes à supprimer ;inplace = True— argument utile de pandas qui permet d'enregistrer toutes les modifications. Vous pouvez également l'utiliser dans d'autres fonctions ; nous en verrons certaines plus tard.
Swipe to start coding
Votre tâche consiste à supprimer la colonne contenant le plus grand nombre de valeurs NaN. Suivez l'algorithme :
- Supprimez la colonne
'Cabin'en utilisant l'argumentinplace = True. - Affichez
5lignes aléatoires de l'ensemble de données.
Solution
Merci pour vos commentaires !
single