Aprenda O Que Faremos com os Valores NaN? | Pré-processamento de Dados

No capítulo anterior, você recebeu o seguinte resultado:


PassengerId	0
Survived	0
Pclass	0
Name	0
Sex	0
Age	86
SibSp	0
Parch	0
Ticket	0
Fare	1
Cabin	327
Embarked	0

O conjunto de dados possui 418 linhas. Observe a coluna Cabin, onde temos 327 valores ausentes. Não faz sentido preenchê-los, pois temos informações mínimas aqui. Portanto, neste caso, a melhor solução é excluir a coluna que não é útil para nós. Um dos motivos é que poderíamos excluir apenas as linhas que contêm valores ausentes, mas não podemos excluir 327 linhas de 418. Então, vamos entender como fazer isso.

Para excluir uma coluna, é necessário aplicar o método .drop() ao conjunto de dados. A sintaxe é a seguinte:

# If you want to delete one column
data.drop(columns = 'column_name', inplace = True)

# If you want to delete several columns
data.drop(columns = ['column_1', 'column_2'], inplace = True)

Explicação:

.drop() - método que exclui colunas;
columns = 'column_name' ou columns = ['column_1', 'column_2'] - argumento da função, onde você especifica o nome ou os nomes das colunas que deseja excluir;
inplace = True - argumento útil do pandas que permite salvar todas as alterações. Você pode utilizá-lo em outras funções também; veremos algumas delas mais adiante.

Tarefa

Swipe to start coding

Sua tarefa é excluir a coluna com o maior número de valores NaN. Siga o algoritmo:

Exclua a coluna 'Cabin' utilizando o argumento inplace = True.
Exiba 5 linhas aleatórias do conjunto de dados.

Solução

Tudo estava claro?

Obrigado pelo seu feedback!

Seção 5. Capítulo 3

single

Pergunte à IA

Pergunte o que quiser ou experimente uma das perguntas sugeridas para iniciar nosso bate-papo

Deslize para mostrar o menu