Familiarizando-se com o Conjunto de Dados
Inicie o pré-processamento explorando o conjunto de dados. Ao longo deste curso, será utilizado o conjunto de dados dos pinguins, com a tarefa de prever a espécie de um pinguim.
Existem três opções possíveis, frequentemente chamadas de classes em aprendizado de máquina:
As características são: 'island'
, 'culmen_depth_mm'
, 'flipper_length_mm'
, 'body_mass_g'
e 'sex'
.
O conjunto de dados está armazenado no arquivo penguins.csv
. Ele pode ser carregado a partir de um link com a função pd.read_csv()
para examinar seu conteúdo:
12345import pandas as pd df = pd.read_csv('https://codefinity-content-media.s3.eu-west-1.amazonaws.com/a65bbc96-309e-4df9-a790-a1eb8c815a1c/penguins.csv') print(df.head(10))
Este conjunto de dados apresenta várias questões que precisam ser tratadas:
- Dados ausentes;
- Variáveis categóricas;
- Diferentes escalas de atributos.
Dados Ausentes
A maioria dos algoritmos de ML não consegue processar valores ausentes diretamente, portanto, estes devem ser tratados antes do treinamento. Valores ausentes podem ser removidos ou imputados (substituídos por valores alternativos).
No pandas
, células vazias são representadas como NaN
. Muitos modelos de ML apresentarão erro se o conjunto de dados contiver ao menos um NaN
.
Dados Categóricos
O conjunto de dados inclui variáveis categóricas, que modelos de aprendizado de máquina não conseguem processar diretamente.
Dados categóricos devem ser codificados em formato numérico.
Escalas Diferentes
Os valores de 'culmen_depth_mm'
variam de 13.1 a 21.5, enquanto os valores de 'body_mass_g'
variam de 2700 a 6300. Por isso, alguns modelos de aprendizado de máquina podem considerar a característica 'body_mass_g'
muito mais importante do que 'culmen_depth_mm'
.
Escalonamento resolve esse problema. Será abordado em capítulos posteriores.
Obrigado pelo seu feedback!
Pergunte à IA
Pergunte à IA
Pergunte o que quiser ou experimente uma das perguntas sugeridas para iniciar nosso bate-papo
What are the three classes of penguins in the dataset?
How do I handle missing data in the penguin dataset?
Can you explain how to encode categorical variables for machine learning?
Awesome!
Completion rate improved to 3.13
Familiarizando-se com o Conjunto de Dados
Deslize para mostrar o menu
Inicie o pré-processamento explorando o conjunto de dados. Ao longo deste curso, será utilizado o conjunto de dados dos pinguins, com a tarefa de prever a espécie de um pinguim.
Existem três opções possíveis, frequentemente chamadas de classes em aprendizado de máquina:
As características são: 'island'
, 'culmen_depth_mm'
, 'flipper_length_mm'
, 'body_mass_g'
e 'sex'
.
O conjunto de dados está armazenado no arquivo penguins.csv
. Ele pode ser carregado a partir de um link com a função pd.read_csv()
para examinar seu conteúdo:
12345import pandas as pd df = pd.read_csv('https://codefinity-content-media.s3.eu-west-1.amazonaws.com/a65bbc96-309e-4df9-a790-a1eb8c815a1c/penguins.csv') print(df.head(10))
Este conjunto de dados apresenta várias questões que precisam ser tratadas:
- Dados ausentes;
- Variáveis categóricas;
- Diferentes escalas de atributos.
Dados Ausentes
A maioria dos algoritmos de ML não consegue processar valores ausentes diretamente, portanto, estes devem ser tratados antes do treinamento. Valores ausentes podem ser removidos ou imputados (substituídos por valores alternativos).
No pandas
, células vazias são representadas como NaN
. Muitos modelos de ML apresentarão erro se o conjunto de dados contiver ao menos um NaN
.
Dados Categóricos
O conjunto de dados inclui variáveis categóricas, que modelos de aprendizado de máquina não conseguem processar diretamente.
Dados categóricos devem ser codificados em formato numérico.
Escalas Diferentes
Os valores de 'culmen_depth_mm'
variam de 13.1 a 21.5, enquanto os valores de 'body_mass_g'
variam de 2700 a 6300. Por isso, alguns modelos de aprendizado de máquina podem considerar a característica 'body_mass_g'
muito mais importante do que 'culmen_depth_mm'
.
Escalonamento resolve esse problema. Será abordado em capítulos posteriores.
Obrigado pelo seu feedback!