single
O Que Faremos com os Valores NaN?
Deslize para mostrar o menu
No capítulo anterior, você obteve o seguinte resultado:
| PassengerId | 0 |
| Survived | 0 |
| Pclass | 0 |
| Name | 0 |
| Sex | 0 |
| Age | 86 |
| SibSp | 0 |
| Parch | 0 |
| Ticket | 0 |
| Fare | 1 |
| Cabin | 327 |
| Embarked | 0 |
O conjunto de dados possui 418 linhas. Observe a coluna Cabin, onde há 327 valores ausentes. Não faz sentido preenchê-los, pois temos informações mínimas aqui. Portanto, neste caso, a melhor solução é excluir a coluna que não tem utilidade para nós. Um dos motivos é que poderíamos excluir apenas as linhas que contêm valores ausentes, mas não podemos excluir 327 linhas de um total de 418. Então, vamos entender como fazer isso.
Para excluir uma coluna, deve-se aplicar o método .drop() ao conjunto de dados. A sintaxe é a seguinte:
# If you want to delete one column
data.drop(columns = 'column_name', inplace = True)
# If you want to delete several columns
data.drop(columns = ['column_1', 'column_2'], inplace = True)
Explicação:
.drop()- método que exclui colunas;columns = 'column_name'oucolumns = ['column_1', 'column_2']- argumento da função, onde se especifica o nome ou os nomes das colunas que deseja excluir;inplace = True- argumento útil do pandas que permite salvar todas as alterações. Pode ser utilizado em outras funções também; veremos algumas delas mais adiante.
Deslize para começar a programar
Sua tarefa é excluir a coluna com o maior número de valores NaN. Siga o algoritmo:
- Exclua a coluna
'Cabin'utilizando o argumentoinplace = True. - Exiba
5linhas aleatórias do conjunto de dados.
Solução
Obrigado pelo seu feedback!
single
Pergunte à IA
Pergunte à IA
Pergunte o que quiser ou experimente uma das perguntas sugeridas para iniciar nosso bate-papo