Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Aprenda Conjunto de Dados: Teste e Treinamento | Breve Introdução
Pré-processamento de Dados

Deslize para mostrar o menu

book
Conjunto de Dados: Teste e Treinamento

Após ler o arquivo e pré-processar os dados, há outra etapa importante - dividir o conjunto de dados em conjuntos de teste e treino. Para que serve?

O conjunto de dados é dividido em conjuntos de treino e teste para avaliar a capacidade do modelo de generalizar para novos dados. Ao treinar o modelo em uma parte dos dados (conjunto de treino) e avaliá-lo em uma parte separada (conjunto de teste), podemos estimar o desempenho do modelo em dados novos e não vistos.

O objetivo é avaliar o desempenho de um modelo de aprendizado de máquina em novos dados: dados que não foram utilizados para treinar o modelo.

Essa divisão é implementada usando o método .train_test_split():

python

Você pode controlar o tamanho do conjunto de dados de treinamento usando o argumento test_size. Para escolher o tamanho da razão entre o conjunto de teste e o conjunto de treinamento, experimente diferentes combinações, como 80-20 (treinamento e amostra de teste, respectivamente), 70-30 e 65-35, e escolha aquela que oferecer o melhor resultado de desempenho. A única regra que deve ser observada é que o tamanho do conjunto de teste deve ser menor que o de treinamento.

Se houver dados insuficientes para um modelo de aprendizado de máquina (underfitting, diferenças significativas entre o desempenho de treinamento e teste, etc.), você tem 2 opções:

  • Validação cruzada. Usar a validação cruzada para avaliar o desempenho do seu modelo, em vez de dividir seu conjunto de dados em um conjunto de treinamento e teste;

  • Transferência de aprendizagem. Isso envolve usar um modelo pré-treinado que foi treinado em um conjunto de dados maior e adaptá-lo ao seu próprio conjunto de dados. Isso pode ser útil ao trabalhar com conjuntos de dados pequenos, pois pode ajudar a aproveitar o conhecimento adquirido de um conjunto de dados maior para melhorar o desempenho do seu modelo.

Tarefa

Swipe to start coding

Carregue o conjunto de dados iris e utilize o método train_test_split (o test_size deve ser de 0.2).

Solução

Switch to desktopMude para o desktop para praticar no mundo realContinue de onde você está usando uma das opções abaixo
Tudo estava claro?

Como podemos melhorá-lo?

Obrigado pelo seu feedback!

Seção 1. Capítulo 3

Pergunte à IA

expand
ChatGPT

Pergunte o que quiser ou experimente uma das perguntas sugeridas para iniciar nosso bate-papo

book
Conjunto de Dados: Teste e Treinamento

Após ler o arquivo e pré-processar os dados, há outra etapa importante - dividir o conjunto de dados em conjuntos de teste e treino. Para que serve?

O conjunto de dados é dividido em conjuntos de treino e teste para avaliar a capacidade do modelo de generalizar para novos dados. Ao treinar o modelo em uma parte dos dados (conjunto de treino) e avaliá-lo em uma parte separada (conjunto de teste), podemos estimar o desempenho do modelo em dados novos e não vistos.

O objetivo é avaliar o desempenho de um modelo de aprendizado de máquina em novos dados: dados que não foram utilizados para treinar o modelo.

Essa divisão é implementada usando o método .train_test_split():

python

Você pode controlar o tamanho do conjunto de dados de treinamento usando o argumento test_size. Para escolher o tamanho da razão entre o conjunto de teste e o conjunto de treinamento, experimente diferentes combinações, como 80-20 (treinamento e amostra de teste, respectivamente), 70-30 e 65-35, e escolha aquela que oferecer o melhor resultado de desempenho. A única regra que deve ser observada é que o tamanho do conjunto de teste deve ser menor que o de treinamento.

Se houver dados insuficientes para um modelo de aprendizado de máquina (underfitting, diferenças significativas entre o desempenho de treinamento e teste, etc.), você tem 2 opções:

  • Validação cruzada. Usar a validação cruzada para avaliar o desempenho do seu modelo, em vez de dividir seu conjunto de dados em um conjunto de treinamento e teste;

  • Transferência de aprendizagem. Isso envolve usar um modelo pré-treinado que foi treinado em um conjunto de dados maior e adaptá-lo ao seu próprio conjunto de dados. Isso pode ser útil ao trabalhar com conjuntos de dados pequenos, pois pode ajudar a aproveitar o conhecimento adquirido de um conjunto de dados maior para melhorar o desempenho do seu modelo.

Tarefa

Swipe to start coding

Carregue o conjunto de dados iris e utilize o método train_test_split (o test_size deve ser de 0.2).

Solução

Switch to desktopMude para o desktop para praticar no mundo realContinue de onde você está usando uma das opções abaixo
Tudo estava claro?

Como podemos melhorá-lo?

Obrigado pelo seu feedback!

Seção 1. Capítulo 3
Switch to desktopMude para o desktop para praticar no mundo realContinue de onde você está usando uma das opções abaixo
Sentimos muito que algo saiu errado. O que aconteceu?
some-alt