Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Aprenda Familiarizando-se com o Conjunto de Dados | Pré-Processamento de Dados com Scikit-Learn
Introdução ao ML com Scikit-learn

bookFamiliarizando-se com o Conjunto de Dados

Inicie o pré-processamento explorando o conjunto de dados. Ao longo deste curso, será utilizado o conjunto de dados dos pinguins, com a tarefa de prever a espécie de um pinguim.

Existem três opções possíveis, frequentemente chamadas de classes em aprendizado de máquina:

As características são: 'island', 'culmen_depth_mm', 'flipper_length_mm', 'body_mass_g' e 'sex'.

O conjunto de dados está armazenado no arquivo penguins.csv. Ele pode ser carregado a partir de um link com a função pd.read_csv() para examinar seu conteúdo:

12345
import pandas as pd df = pd.read_csv('https://codefinity-content-media.s3.eu-west-1.amazonaws.com/a65bbc96-309e-4df9-a790-a1eb8c815a1c/penguins.csv') print(df.head(10))
copy

Este conjunto de dados apresenta várias questões que precisam ser tratadas:

  • Dados ausentes;
  • Variáveis categóricas;
  • Diferentes escalas de atributos.

Dados Ausentes

A maioria dos algoritmos de ML não consegue processar valores ausentes diretamente, portanto, estes devem ser tratados antes do treinamento. Valores ausentes podem ser removidos ou imputados (substituídos por valores alternativos).

No pandas, células vazias são representadas como NaN. Muitos modelos de ML apresentarão erro se o conjunto de dados contiver ao menos um NaN.

Dados Categóricos

O conjunto de dados inclui variáveis categóricas, que modelos de aprendizado de máquina não conseguem processar diretamente.

Dados categóricos devem ser codificados em formato numérico.

Escalas Diferentes

Os valores de 'culmen_depth_mm' variam de 13.1 a 21.5, enquanto os valores de 'body_mass_g' variam de 2700 a 6300. Por isso, alguns modelos de aprendizado de máquina podem considerar a característica 'body_mass_g' muito mais importante do que 'culmen_depth_mm'.

Escalonamento resolve esse problema. Será abordado em capítulos posteriores.

question-icon

Associe o problema à forma de resolvê-lo.

Missing values –
Categorical data –

Different Scales –

Clique ou arraste solte itens e preencha os espaços

Tudo estava claro?

Como podemos melhorá-lo?

Obrigado pelo seu feedback!

Seção 2. Capítulo 2

Pergunte à IA

expand

Pergunte à IA

ChatGPT

Pergunte o que quiser ou experimente uma das perguntas sugeridas para iniciar nosso bate-papo

Suggested prompts:

What are the three classes of penguins in the dataset?

How do I handle missing data in the penguin dataset?

Can you explain how to encode categorical variables for machine learning?

Awesome!

Completion rate improved to 3.13

bookFamiliarizando-se com o Conjunto de Dados

Deslize para mostrar o menu

Inicie o pré-processamento explorando o conjunto de dados. Ao longo deste curso, será utilizado o conjunto de dados dos pinguins, com a tarefa de prever a espécie de um pinguim.

Existem três opções possíveis, frequentemente chamadas de classes em aprendizado de máquina:

As características são: 'island', 'culmen_depth_mm', 'flipper_length_mm', 'body_mass_g' e 'sex'.

O conjunto de dados está armazenado no arquivo penguins.csv. Ele pode ser carregado a partir de um link com a função pd.read_csv() para examinar seu conteúdo:

12345
import pandas as pd df = pd.read_csv('https://codefinity-content-media.s3.eu-west-1.amazonaws.com/a65bbc96-309e-4df9-a790-a1eb8c815a1c/penguins.csv') print(df.head(10))
copy

Este conjunto de dados apresenta várias questões que precisam ser tratadas:

  • Dados ausentes;
  • Variáveis categóricas;
  • Diferentes escalas de atributos.

Dados Ausentes

A maioria dos algoritmos de ML não consegue processar valores ausentes diretamente, portanto, estes devem ser tratados antes do treinamento. Valores ausentes podem ser removidos ou imputados (substituídos por valores alternativos).

No pandas, células vazias são representadas como NaN. Muitos modelos de ML apresentarão erro se o conjunto de dados contiver ao menos um NaN.

Dados Categóricos

O conjunto de dados inclui variáveis categóricas, que modelos de aprendizado de máquina não conseguem processar diretamente.

Dados categóricos devem ser codificados em formato numérico.

Escalas Diferentes

Os valores de 'culmen_depth_mm' variam de 13.1 a 21.5, enquanto os valores de 'body_mass_g' variam de 2700 a 6300. Por isso, alguns modelos de aprendizado de máquina podem considerar a característica 'body_mass_g' muito mais importante do que 'culmen_depth_mm'.

Escalonamento resolve esse problema. Será abordado em capítulos posteriores.

question-icon

Associe o problema à forma de resolvê-lo.

Missing values –
Categorical data –

Different Scales –

Clique ou arraste solte itens e preencha os espaços

Tudo estava claro?

Como podemos melhorá-lo?

Obrigado pelo seu feedback!

Seção 2. Capítulo 2
some-alt