Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Aprenda Desafio: Integrando Todos os Conceitos | Modelagem
Introdução ao ML com Scikit-Learn

bookDesafio: Integrando Todos os Conceitos

Neste desafio, aplicar o fluxo de trabalho completo aprendido no curso — desde o pré-processamento dos dados até o treinamento e avaliação do modelo.

Tarefa

Swipe to start coding

Você está trabalhando com um conjunto de dados de pinguins. Seu objetivo é construir um pipeline completo de aprendizado de máquina que classifique as espécies de pinguins utilizando um modelo K-Nearest Neighbors (KNN). O pipeline deve lidar com codificação de variáveis categóricas, valores ausentes, padronização de variáveis e ajuste de parâmetros.

  1. Codifique a variável alvo y utilizando a classe LabelEncoder.
  2. Divida o conjunto de dados em conjuntos de treino e teste usando train_test_split() com test_size=0.33.
  3. Crie um ColumnTransformer chamado ct que aplica um OneHotEncoder às colunas 'island' e 'sex', mantendo as demais colunas inalteradas (remainder='passthrough').
  4. Defina um grid de parâmetros param_grid contendo os seguintes valores para n_neighbors: [1, 3, 5, 7, 9, 12, 15, 20, 25], e inclua 'weights' ('uniform', 'distance') e 'p' (1, 2).
  5. Crie um objeto GridSearchCV utilizando KNeighborsClassifier() como estimador e param_grid como grid de parâmetros.
  6. Monte um pipeline que inclua, na seguinte ordem:
  • O ColumnTransformer (ct);
  • Um SimpleImputer com a estratégia definida como 'most_frequent';
  • Um StandardScaler para padronização das variáveis;
  • O objeto GridSearchCV como etapa final.
  1. Treine o pipeline nos dados de treino (X_train, y_train) utilizando o método .fit().
  2. Avalie o desempenho do modelo imprimindo o score de teste usando .score(X_test, y_test).
  3. Gere previsões nos dados de teste e imprima os 5 primeiros nomes de classes decodificados utilizando label_enc.inverse_transform().
  4. Imprima o melhor estimador encontrado pelo GridSearchCV usando o atributo .best_estimator_.

Solução

Tudo estava claro?

Como podemos melhorá-lo?

Obrigado pelo seu feedback!

Seção 4. Capítulo 10
single

single

Pergunte à IA

expand

Pergunte à IA

ChatGPT

Pergunte o que quiser ou experimente uma das perguntas sugeridas para iniciar nosso bate-papo

close

Awesome!

Completion rate improved to 3.13

bookDesafio: Integrando Todos os Conceitos

Deslize para mostrar o menu

Neste desafio, aplicar o fluxo de trabalho completo aprendido no curso — desde o pré-processamento dos dados até o treinamento e avaliação do modelo.

Tarefa

Swipe to start coding

Você está trabalhando com um conjunto de dados de pinguins. Seu objetivo é construir um pipeline completo de aprendizado de máquina que classifique as espécies de pinguins utilizando um modelo K-Nearest Neighbors (KNN). O pipeline deve lidar com codificação de variáveis categóricas, valores ausentes, padronização de variáveis e ajuste de parâmetros.

  1. Codifique a variável alvo y utilizando a classe LabelEncoder.
  2. Divida o conjunto de dados em conjuntos de treino e teste usando train_test_split() com test_size=0.33.
  3. Crie um ColumnTransformer chamado ct que aplica um OneHotEncoder às colunas 'island' e 'sex', mantendo as demais colunas inalteradas (remainder='passthrough').
  4. Defina um grid de parâmetros param_grid contendo os seguintes valores para n_neighbors: [1, 3, 5, 7, 9, 12, 15, 20, 25], e inclua 'weights' ('uniform', 'distance') e 'p' (1, 2).
  5. Crie um objeto GridSearchCV utilizando KNeighborsClassifier() como estimador e param_grid como grid de parâmetros.
  6. Monte um pipeline que inclua, na seguinte ordem:
  • O ColumnTransformer (ct);
  • Um SimpleImputer com a estratégia definida como 'most_frequent';
  • Um StandardScaler para padronização das variáveis;
  • O objeto GridSearchCV como etapa final.
  1. Treine o pipeline nos dados de treino (X_train, y_train) utilizando o método .fit().
  2. Avalie o desempenho do modelo imprimindo o score de teste usando .score(X_test, y_test).
  3. Gere previsões nos dados de teste e imprima os 5 primeiros nomes de classes decodificados utilizando label_enc.inverse_transform().
  4. Imprima o melhor estimador encontrado pelo GridSearchCV usando o atributo .best_estimator_.

Solução

Switch to desktopMude para o desktop para praticar no mundo realContinue de onde você está usando uma das opções abaixo
Tudo estava claro?

Como podemos melhorá-lo?

Obrigado pelo seu feedback!

Seção 4. Capítulo 10
single

single

some-alt