Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Aprenda Resumo de Modelagem | Modelagem
Introdução ao ML com Scikit-learn

bookResumo de Modelagem

Agora você aprendeu como construir um modelo, integrá-lo em um pipeline e ajustar hiperparâmetros. Dois métodos de avaliação também foram abordados: a divisão treino-teste e a validação cruzada.

O próximo passo é combinar a avaliação do modelo com o ajuste de hiperparâmetros utilizando GridSearchCV ou RandomizedSearchCV.

Note
Nota

Como nosso conjunto de dados é pequeno, utilizaremos o GridSearchCV, mas tudo o que for mencionado a seguir também se aplica ao RandomizedSearchCV.

O objetivo é obter a maior pontuação de validação cruzada no conjunto de dados, já que a validação cruzada é mais estável e menos dependente de como os dados são divididos do que a abordagem treino-teste.

O GridSearchCV foi projetado especificamente para esse propósito: ele identifica os hiperparâmetros que alcançam a melhor pontuação de validação cruzada, produzindo um modelo ajustado que apresenta desempenho ideal nos dados de treinamento.

O atributo .best_score_ armazena a maior pontuação de validação cruzada encontrada durante a busca.

Note
Nota

Os melhores hiperparâmetros para um conjunto de dados específico podem não ser os melhores em geral. Se novos dados forem adicionados, os hiperparâmetros ideais podem mudar.

Consequentemente, o .best_score_ alcançado pode ser maior do que o desempenho em dados completamente inéditos, pois os hiperparâmetros podem não se generalizar tão bem além do conjunto de treinamento.

Normalmente, o conjunto de dados é primeiramente dividido em conjuntos de treinamento e teste. A validação cruzada é então aplicada ao conjunto de treinamento para ajustar o modelo e identificar a melhor configuração. Por fim, o modelo otimizado é avaliado no conjunto de teste, que contém apenas dados inéditos, para avaliar seu desempenho no mundo real.

Para resumir, o fluxo de trabalho completo consiste em:

  1. Pré-processamento dos dados;
  2. Divisão do conjunto de dados em conjuntos de treinamento e teste;
  3. Utilização de validação cruzada no conjunto de treinamento para encontrar o modelo de melhor desempenho;
  4. Avaliação desse modelo no conjunto de teste.
Note
Estude Mais

A terceira etapa geralmente envolve testar múltiplos algoritmos e ajustar seus hiperparâmetros para identificar a melhor opção. Para simplificar, apenas um único algoritmo foi utilizado neste curso.

Antes de avançar para o desafio final, é importante observar que a validação cruzada não é o único método para ajustar modelos. À medida que os conjuntos de dados aumentam, calcular as pontuações de validação cruzada se torna mais demorado, e a divisão tradicional entre treino e teste oferece mais estabilidade devido ao aumento do tamanho do conjunto de teste.

Consequentemente, conjuntos de dados grandes são frequentemente divididos em três conjuntos: um conjunto de treino, um conjunto de validação e um conjunto de teste. O modelo é treinado no conjunto de treino e avaliado no conjunto de validação para selecionar o modelo ou hiperparâmetros que apresentam melhor desempenho.

Essa seleção utiliza as pontuações do conjunto de validação em vez das pontuações de validação cruzada. Por fim, o modelo escolhido é avaliado no conjunto de teste, que consiste em dados completamente inéditos, para verificar seu desempenho.

O conjunto de dados dos pinguins é pequeno, com apenas 342 instâncias. Devido a esse tamanho limitado, a pontuação de validação cruzada será utilizada para avaliação no próximo capítulo.

question mark

Por que a validação cruzada é particularmente valiosa para ajuste de hiperparâmetros em conjuntos de dados menores, ao contrário de conjuntos maiores onde divisões treino-teste podem ser preferidas?

Select the correct answer

Tudo estava claro?

Como podemos melhorá-lo?

Obrigado pelo seu feedback!

Seção 4. Capítulo 9

Pergunte à IA

expand

Pergunte à IA

ChatGPT

Pergunte o que quiser ou experimente uma das perguntas sugeridas para iniciar nosso bate-papo

Awesome!

Completion rate improved to 3.13

bookResumo de Modelagem

Deslize para mostrar o menu

Agora você aprendeu como construir um modelo, integrá-lo em um pipeline e ajustar hiperparâmetros. Dois métodos de avaliação também foram abordados: a divisão treino-teste e a validação cruzada.

O próximo passo é combinar a avaliação do modelo com o ajuste de hiperparâmetros utilizando GridSearchCV ou RandomizedSearchCV.

Note
Nota

Como nosso conjunto de dados é pequeno, utilizaremos o GridSearchCV, mas tudo o que for mencionado a seguir também se aplica ao RandomizedSearchCV.

O objetivo é obter a maior pontuação de validação cruzada no conjunto de dados, já que a validação cruzada é mais estável e menos dependente de como os dados são divididos do que a abordagem treino-teste.

O GridSearchCV foi projetado especificamente para esse propósito: ele identifica os hiperparâmetros que alcançam a melhor pontuação de validação cruzada, produzindo um modelo ajustado que apresenta desempenho ideal nos dados de treinamento.

O atributo .best_score_ armazena a maior pontuação de validação cruzada encontrada durante a busca.

Note
Nota

Os melhores hiperparâmetros para um conjunto de dados específico podem não ser os melhores em geral. Se novos dados forem adicionados, os hiperparâmetros ideais podem mudar.

Consequentemente, o .best_score_ alcançado pode ser maior do que o desempenho em dados completamente inéditos, pois os hiperparâmetros podem não se generalizar tão bem além do conjunto de treinamento.

Normalmente, o conjunto de dados é primeiramente dividido em conjuntos de treinamento e teste. A validação cruzada é então aplicada ao conjunto de treinamento para ajustar o modelo e identificar a melhor configuração. Por fim, o modelo otimizado é avaliado no conjunto de teste, que contém apenas dados inéditos, para avaliar seu desempenho no mundo real.

Para resumir, o fluxo de trabalho completo consiste em:

  1. Pré-processamento dos dados;
  2. Divisão do conjunto de dados em conjuntos de treinamento e teste;
  3. Utilização de validação cruzada no conjunto de treinamento para encontrar o modelo de melhor desempenho;
  4. Avaliação desse modelo no conjunto de teste.
Note
Estude Mais

A terceira etapa geralmente envolve testar múltiplos algoritmos e ajustar seus hiperparâmetros para identificar a melhor opção. Para simplificar, apenas um único algoritmo foi utilizado neste curso.

Antes de avançar para o desafio final, é importante observar que a validação cruzada não é o único método para ajustar modelos. À medida que os conjuntos de dados aumentam, calcular as pontuações de validação cruzada se torna mais demorado, e a divisão tradicional entre treino e teste oferece mais estabilidade devido ao aumento do tamanho do conjunto de teste.

Consequentemente, conjuntos de dados grandes são frequentemente divididos em três conjuntos: um conjunto de treino, um conjunto de validação e um conjunto de teste. O modelo é treinado no conjunto de treino e avaliado no conjunto de validação para selecionar o modelo ou hiperparâmetros que apresentam melhor desempenho.

Essa seleção utiliza as pontuações do conjunto de validação em vez das pontuações de validação cruzada. Por fim, o modelo escolhido é avaliado no conjunto de teste, que consiste em dados completamente inéditos, para verificar seu desempenho.

O conjunto de dados dos pinguins é pequeno, com apenas 342 instâncias. Devido a esse tamanho limitado, a pontuação de validação cruzada será utilizada para avaliação no próximo capítulo.

question mark

Por que a validação cruzada é particularmente valiosa para ajuste de hiperparâmetros em conjuntos de dados menores, ao contrário de conjuntos maiores onde divisões treino-teste podem ser preferidas?

Select the correct answer

Tudo estava claro?

Como podemos melhorá-lo?

Obrigado pelo seu feedback!

Seção 4. Capítulo 9
some-alt