Aprenda Conjunto de Dados: Teste e Treinamento

Seção 1. Capítulo 3

single

Deslize para mostrar o menu

Após ler o arquivo e pré-processar os dados, há outra etapa importante - dividir o conjunto de dados em conjuntos de teste e treino. Para que serve?

O conjunto de dados é dividido em conjuntos de treino e teste para avaliar a capacidade do modelo de generalizar para novos dados. Ao treinar o modelo em uma parte dos dados (conjunto de treino) e avaliá-lo em uma parte separada (conjunto de teste), podemos estimar o desempenho do modelo em dados novos e não vistos.

O objetivo é avaliar o desempenho de um modelo de aprendizado de máquina em novos dados: dados que não foram utilizados para treinar o modelo.

Essa divisão é implementada usando o método .train_test_split():

from sklearn.model_selection import train_test_split

X_train, X_test, y_train, y_test = train_test_split(
    X, y, test_size=0.33, random_state=42)

Você pode controlar o tamanho do conjunto de dados de treinamento usando o argumento test_size. Para escolher o tamanho da razão entre o conjunto de teste e o conjunto de treinamento, experimente diferentes combinações, como 80-20 (treinamento e amostra de teste, respectivamente), 70-30 e 65-35, e escolha aquela que oferecer o melhor resultado de desempenho. A única regra que deve ser observada é que o tamanho do conjunto de teste deve ser menor que o de treinamento.

Se houver dados insuficientes para um modelo de aprendizado de máquina (underfitting, diferenças significativas entre o desempenho de treinamento e teste, etc.), você tem 2 opções:

Validação cruzada. Usar a validação cruzada para avaliar o desempenho do seu modelo, em vez de dividir seu conjunto de dados em um conjunto de treinamento e teste;
Transferência de aprendizagem. Isso envolve usar um modelo pré-treinado que foi treinado em um conjunto de dados maior e adaptá-lo ao seu próprio conjunto de dados. Isso pode ser útil ao trabalhar com conjuntos de dados pequenos, pois pode ajudar a aproveitar o conhecimento adquirido de um conjunto de dados maior para melhorar o desempenho do seu modelo.

Tarefa

Deslize para começar a programar

Carregue o conjunto de dados iris e utilize o método train_test_split (o test_size deve ser de 0.2).

Solução

Mude para o desktop para praticar no mundo realContinue de onde você está usando uma das opções abaixo

Tudo estava claro?

Obrigado pelo seu feedback!

Seção 1. Capítulo 3

single

Pergunte à IA

Pergunte o que quiser ou experimente uma das perguntas sugeridas para iniciar nosso bate-papo