Conteúdo do Curso
Pré-processamento de Dados
Pré-processamento de Dados
Removendo Valores Ausentes
Removendo valores ausentes de conjuntos de dados é um passo importante para assegurar a qualidade e precisão da análise de dados e modelagem. Isso ajuda a evitar problemas com dados incompletos, resultados enviesados, desempenho ruim do modelo e integridade dos dados. No entanto, é importante considerar cuidadosamente as implicações da remoção de valores ausentes e escolher um método apropriado para lidar com eles, como imputação ou remoção, dependendo da situação específica.
Para remover valores ausentes em Python, você pode usar o método .dropna()
, da biblioteca pandas
. Esta função remove quaisquer linhas ou colunas que contenham valores ausentes em um conjunto de dados.
Aqui está um exemplo:
import pandas as pd import numpy as np # Load dataset dataset = pd.DataFrame(np.array([[10, 2, np.nan], [5, 0.3, 9], [np.nan, 12, 8], [11, 12, 8]])) print('Dataset is:\n', dataset) # Drop rows with missing values dataset = dataset.dropna() print('Cleaned dataset is:\n', dataset)
É importante notar que a remoção de valores ausentes pode resultar em perda de informação, portanto, é importante considerar as implicações dessa remoção antes de efetuá-la. Em alguns casos, pode ser mais adequado imputar valores ausentes em vez de removê-los.
Também queremos lembrá-lo que substituir valores ausentes pelos seus valores médios pode ser utilizado para tratar dados ausentes em Python. Esse método é tipicamente usado quando os dados ausentes estão ausentes aleatoriamente (MAR), o que significa que os valores ausentes não estão relacionados ao valor real dos dados ausentes.
Swipe to show code editor
Remova os valores ausentes no conjunto de dados 'titanic.csv'
.
Solução
Obrigado pelo seu feedback!
Removendo Valores Ausentes
Removendo valores ausentes de conjuntos de dados é um passo importante para assegurar a qualidade e precisão da análise de dados e modelagem. Isso ajuda a evitar problemas com dados incompletos, resultados enviesados, desempenho ruim do modelo e integridade dos dados. No entanto, é importante considerar cuidadosamente as implicações da remoção de valores ausentes e escolher um método apropriado para lidar com eles, como imputação ou remoção, dependendo da situação específica.
Para remover valores ausentes em Python, você pode usar o método .dropna()
, da biblioteca pandas
. Esta função remove quaisquer linhas ou colunas que contenham valores ausentes em um conjunto de dados.
Aqui está um exemplo:
import pandas as pd import numpy as np # Load dataset dataset = pd.DataFrame(np.array([[10, 2, np.nan], [5, 0.3, 9], [np.nan, 12, 8], [11, 12, 8]])) print('Dataset is:\n', dataset) # Drop rows with missing values dataset = dataset.dropna() print('Cleaned dataset is:\n', dataset)
É importante notar que a remoção de valores ausentes pode resultar em perda de informação, portanto, é importante considerar as implicações dessa remoção antes de efetuá-la. Em alguns casos, pode ser mais adequado imputar valores ausentes em vez de removê-los.
Também queremos lembrá-lo que substituir valores ausentes pelos seus valores médios pode ser utilizado para tratar dados ausentes em Python. Esse método é tipicamente usado quando os dados ausentes estão ausentes aleatoriamente (MAR), o que significa que os valores ausentes não estão relacionados ao valor real dos dados ausentes.
Swipe to show code editor
Remova os valores ausentes no conjunto de dados 'titanic.csv'
.
Solução
Obrigado pelo seu feedback!