Contenu du cours
Techniques Avancées dans Pandas
Techniques Avancées dans Pandas
Que Ferons-Nous Avec les Valeurs NaN?
Dans le chapitre précédent, vous avez reçu le résultat :
PassengerId | 0 |
Survived | 0 |
Pclass | 0 |
Name | 0 |
Sex | 0 |
Age | 86 |
SibSp | 0 |
Parch | 0 |
Ticket | 0 |
Fare | 1 |
Cabin | 327 |
Embarked | 0 |
Le jeu de données contient 418 lignes. Regardez la colonne Cabin
, où nous avons 327
valeurs manquantes. Il n'y a pas de sens à les remplir car nous avons peu d'informations ici. Donc, dans ce cas, la meilleure solution est de supprimer la colonne qui est inutile pour nous. L'une des raisons est que nous pouvons supprimer uniquement les lignes qui contiennent des valeurs manquantes, mais nous ne pouvons pas supprimer 327 lignes sur 418. Alors, voyons comment faire cela.
Pour supprimer une colonne, vous devez appliquer la méthode .drop()
au jeu de données. La syntaxe est la suivante :
Explication :
.drop()
- une méthode qui supprime des colonnes ;columns = 'column_name'
oucolumns = ['column_1', 'column_2']
- argument de la fonction, où vous spécifiez le nom ou les noms des colonnes que vous souhaitez supprimer ;inplace = True
- argument utile de pandas qui nous permet de sauvegarder tous les changements. Vous pouvez l'utiliser dans d'autres fonctions aussi ; nous en apprendrons certaines plus tard.
Swipe to start coding
Votre tâche est de supprimer la colonne avec le plus grand nombre de valeurs NaN. Suivez l'algorithme :
- Supprimez la colonne
'Cabin'
en utilisant l'argumentinplace = True
. - Affichez les
5
lignes aléatoires du jeu de données.
Solution
Merci pour vos commentaires !
Que Ferons-Nous Avec les Valeurs NaN?
Dans le chapitre précédent, vous avez reçu le résultat :
PassengerId | 0 |
Survived | 0 |
Pclass | 0 |
Name | 0 |
Sex | 0 |
Age | 86 |
SibSp | 0 |
Parch | 0 |
Ticket | 0 |
Fare | 1 |
Cabin | 327 |
Embarked | 0 |
Le jeu de données contient 418 lignes. Regardez la colonne Cabin
, où nous avons 327
valeurs manquantes. Il n'y a pas de sens à les remplir car nous avons peu d'informations ici. Donc, dans ce cas, la meilleure solution est de supprimer la colonne qui est inutile pour nous. L'une des raisons est que nous pouvons supprimer uniquement les lignes qui contiennent des valeurs manquantes, mais nous ne pouvons pas supprimer 327 lignes sur 418. Alors, voyons comment faire cela.
Pour supprimer une colonne, vous devez appliquer la méthode .drop()
au jeu de données. La syntaxe est la suivante :
Explication :
.drop()
- une méthode qui supprime des colonnes ;columns = 'column_name'
oucolumns = ['column_1', 'column_2']
- argument de la fonction, où vous spécifiez le nom ou les noms des colonnes que vous souhaitez supprimer ;inplace = True
- argument utile de pandas qui nous permet de sauvegarder tous les changements. Vous pouvez l'utiliser dans d'autres fonctions aussi ; nous en apprendrons certaines plus tard.
Swipe to start coding
Votre tâche est de supprimer la colonne avec le plus grand nombre de valeurs NaN. Suivez l'algorithme :
- Supprimez la colonne
'Cabin'
en utilisant l'argumentinplace = True
. - Affichez les
5
lignes aléatoires du jeu de données.
Solution
Merci pour vos commentaires !