Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Conjunto de Dados: Teste e Treinamento | Breve Introdução
Pré-processamento de Dados
course content

Conteúdo do Curso

Pré-processamento de Dados

Pré-processamento de Dados

1. Breve Introdução
2. Processamento de Dados Quantitativos
3. Processamento de Dados Categóricos
4. Processamento de Dados de Séries Temporais
5. Engenharia de Recursos
6. Passando para as Tarefas

book
Conjunto de Dados: Teste e Treinamento

Após ler o arquivo e pré-processar os dados, há outra etapa importante - dividir o conjunto de dados em conjuntos de teste e treino. Para que serve?

O conjunto de dados é dividido em conjuntos de treino e teste para avaliar a capacidade do modelo de generalizar para novos dados. Ao treinar o modelo em uma parte dos dados (conjunto de treino) e avaliá-lo em uma parte separada (conjunto de teste), podemos estimar o desempenho do modelo em dados novos e não vistos.

O objetivo é avaliar o desempenho de um modelo de aprendizado de máquina em novos dados: dados que não foram utilizados para treinar o modelo.

Essa divisão é implementada usando o método .train_test_split():

Você pode controlar o tamanho do conjunto de dados de treinamento usando o argumento test_size. Para escolher o tamanho da razão entre o conjunto de teste e o conjunto de treinamento, experimente diferentes combinações, como 80-20 (treinamento e amostra de teste, respectivamente), 70-30 e 65-35, e escolha aquela que oferecer o melhor resultado de desempenho. A única regra que deve ser observada é que o tamanho do conjunto de teste deve ser menor que o de treinamento.

Se houver dados insuficientes para um modelo de aprendizado de máquina (underfitting, diferenças significativas entre o desempenho de treinamento e teste, etc.), você tem 2 opções:

  • Validação cruzada. Usar a validação cruzada para avaliar o desempenho do seu modelo, em vez de dividir seu conjunto de dados em um conjunto de treinamento e teste;

  • Transferência de aprendizagem. Isso envolve usar um modelo pré-treinado que foi treinado em um conjunto de dados maior e adaptá-lo ao seu próprio conjunto de dados. Isso pode ser útil ao trabalhar com conjuntos de dados pequenos, pois pode ajudar a aproveitar o conhecimento adquirido de um conjunto de dados maior para melhorar o desempenho do seu modelo.

Tarefa
test

Swipe to show code editor

Carregue o conjunto de dados iris e utilize o método train_test_split (o test_size deve ser de 0.2).

Solução

Switch to desktopMude para o desktop para praticar no mundo realContinue de onde você está usando uma das opções abaixo
Tudo estava claro?

Como podemos melhorá-lo?

Obrigado pelo seu feedback!

Seção 1. Capítulo 3
toggle bottom row

book
Conjunto de Dados: Teste e Treinamento

Após ler o arquivo e pré-processar os dados, há outra etapa importante - dividir o conjunto de dados em conjuntos de teste e treino. Para que serve?

O conjunto de dados é dividido em conjuntos de treino e teste para avaliar a capacidade do modelo de generalizar para novos dados. Ao treinar o modelo em uma parte dos dados (conjunto de treino) e avaliá-lo em uma parte separada (conjunto de teste), podemos estimar o desempenho do modelo em dados novos e não vistos.

O objetivo é avaliar o desempenho de um modelo de aprendizado de máquina em novos dados: dados que não foram utilizados para treinar o modelo.

Essa divisão é implementada usando o método .train_test_split():

Você pode controlar o tamanho do conjunto de dados de treinamento usando o argumento test_size. Para escolher o tamanho da razão entre o conjunto de teste e o conjunto de treinamento, experimente diferentes combinações, como 80-20 (treinamento e amostra de teste, respectivamente), 70-30 e 65-35, e escolha aquela que oferecer o melhor resultado de desempenho. A única regra que deve ser observada é que o tamanho do conjunto de teste deve ser menor que o de treinamento.

Se houver dados insuficientes para um modelo de aprendizado de máquina (underfitting, diferenças significativas entre o desempenho de treinamento e teste, etc.), você tem 2 opções:

  • Validação cruzada. Usar a validação cruzada para avaliar o desempenho do seu modelo, em vez de dividir seu conjunto de dados em um conjunto de treinamento e teste;

  • Transferência de aprendizagem. Isso envolve usar um modelo pré-treinado que foi treinado em um conjunto de dados maior e adaptá-lo ao seu próprio conjunto de dados. Isso pode ser útil ao trabalhar com conjuntos de dados pequenos, pois pode ajudar a aproveitar o conhecimento adquirido de um conjunto de dados maior para melhorar o desempenho do seu modelo.

Tarefa
test

Swipe to show code editor

Carregue o conjunto de dados iris e utilize o método train_test_split (o test_size deve ser de 0.2).

Solução

Switch to desktopMude para o desktop para praticar no mundo realContinue de onde você está usando uma das opções abaixo
Tudo estava claro?

Como podemos melhorá-lo?

Obrigado pelo seu feedback!

Seção 1. Capítulo 3
Switch to desktopMude para o desktop para praticar no mundo realContinue de onde você está usando uma das opções abaixo
We're sorry to hear that something went wrong. What happened?
some-alt