Desafio: Integrando Todos os Conceitos
Neste desafio, aplicar o fluxo de trabalho completo aprendido no curso — desde o pré-processamento dos dados até o treinamento e avaliação do modelo.
Swipe to start coding
Você está trabalhando com um conjunto de dados de pinguins. Seu objetivo é construir um pipeline completo de aprendizado de máquina que classifique as espécies de pinguins utilizando um modelo K-Nearest Neighbors (KNN). O pipeline deve lidar com codificação de variáveis categóricas, valores ausentes, padronização de variáveis e ajuste de parâmetros.
- Codifique a variável alvo
yutilizando a classeLabelEncoder. - Divida o conjunto de dados em conjuntos de treino e teste usando
train_test_split()comtest_size=0.33. - Crie um
ColumnTransformerchamadoctque aplica umOneHotEncoderàs colunas'island'e'sex', mantendo as demais colunas inalteradas (remainder='passthrough'). - Defina um grid de parâmetros
param_gridcontendo os seguintes valores paran_neighbors:[1, 3, 5, 7, 9, 12, 15, 20, 25], e inclua'weights'('uniform','distance') e'p'(1,2). - Crie um objeto
GridSearchCVutilizandoKNeighborsClassifier()como estimador eparam_gridcomo grid de parâmetros. - Monte um pipeline que inclua, na seguinte ordem:
- O
ColumnTransformer(ct); - Um
SimpleImputercom a estratégia definida como'most_frequent'; - Um
StandardScalerpara padronização das variáveis; - O objeto
GridSearchCVcomo etapa final.
- Treine o pipeline nos dados de treino (
X_train,y_train) utilizando o método.fit(). - Avalie o desempenho do modelo imprimindo o score de teste usando
.score(X_test, y_test). - Gere previsões nos dados de teste e imprima os 5 primeiros nomes de classes decodificados utilizando
label_enc.inverse_transform(). - Imprima o melhor estimador encontrado pelo
GridSearchCVusando o atributo.best_estimator_.
Solução
Obrigado pelo seu feedback!
single
Pergunte à IA
Pergunte à IA
Pergunte o que quiser ou experimente uma das perguntas sugeridas para iniciar nosso bate-papo
Awesome!
Completion rate improved to 3.13
Desafio: Integrando Todos os Conceitos
Deslize para mostrar o menu
Neste desafio, aplicar o fluxo de trabalho completo aprendido no curso — desde o pré-processamento dos dados até o treinamento e avaliação do modelo.
Swipe to start coding
Você está trabalhando com um conjunto de dados de pinguins. Seu objetivo é construir um pipeline completo de aprendizado de máquina que classifique as espécies de pinguins utilizando um modelo K-Nearest Neighbors (KNN). O pipeline deve lidar com codificação de variáveis categóricas, valores ausentes, padronização de variáveis e ajuste de parâmetros.
- Codifique a variável alvo
yutilizando a classeLabelEncoder. - Divida o conjunto de dados em conjuntos de treino e teste usando
train_test_split()comtest_size=0.33. - Crie um
ColumnTransformerchamadoctque aplica umOneHotEncoderàs colunas'island'e'sex', mantendo as demais colunas inalteradas (remainder='passthrough'). - Defina um grid de parâmetros
param_gridcontendo os seguintes valores paran_neighbors:[1, 3, 5, 7, 9, 12, 15, 20, 25], e inclua'weights'('uniform','distance') e'p'(1,2). - Crie um objeto
GridSearchCVutilizandoKNeighborsClassifier()como estimador eparam_gridcomo grid de parâmetros. - Monte um pipeline que inclua, na seguinte ordem:
- O
ColumnTransformer(ct); - Um
SimpleImputercom a estratégia definida como'most_frequent'; - Um
StandardScalerpara padronização das variáveis; - O objeto
GridSearchCVcomo etapa final.
- Treine o pipeline nos dados de treino (
X_train,y_train) utilizando o método.fit(). - Avalie o desempenho do modelo imprimindo o score de teste usando
.score(X_test, y_test). - Gere previsões nos dados de teste e imprima os 5 primeiros nomes de classes decodificados utilizando
label_enc.inverse_transform(). - Imprima o melhor estimador encontrado pelo
GridSearchCVusando o atributo.best_estimator_.
Solução
Obrigado pelo seu feedback!
single