Conteúdo do Curso
Pré-processamento de Dados
Pré-processamento de Dados
Conjunto de Dados: Teste e Treinamento
Após ler o arquivo e pré-processar os dados, há outra etapa importante - dividir o conjunto de dados em conjuntos de teste e treino. Para que serve?
O conjunto de dados é dividido em conjuntos de treino e teste para avaliar a capacidade do modelo de generalizar para novos dados. Ao treinar o modelo em uma parte dos dados (conjunto de treino) e avaliá-lo em uma parte separada (conjunto de teste), podemos estimar o desempenho do modelo em dados novos e não vistos.
O objetivo é avaliar o desempenho de um modelo de aprendizado de máquina em novos dados: dados que não foram utilizados para treinar o modelo.
Essa divisão é implementada usando o método .train_test_split()
:
Você pode controlar o tamanho do conjunto de dados de treinamento usando o argumento test_size
. Para escolher o tamanho da razão entre o conjunto de teste e o conjunto de treinamento, experimente diferentes combinações, como 80-20 (treinamento e amostra de teste, respectivamente), 70-30 e 65-35, e escolha aquela que oferecer o melhor resultado de desempenho. A única regra que deve ser observada é que o tamanho do conjunto de teste deve ser menor que o de treinamento.
Se houver dados insuficientes para um modelo de aprendizado de máquina (underfitting, diferenças significativas entre o desempenho de treinamento e teste, etc.), você tem 2 opções:
-
Validação cruzada. Usar a validação cruzada para avaliar o desempenho do seu modelo, em vez de dividir seu conjunto de dados em um conjunto de treinamento e teste;
-
Transferência de aprendizagem. Isso envolve usar um modelo pré-treinado que foi treinado em um conjunto de dados maior e adaptá-lo ao seu próprio conjunto de dados. Isso pode ser útil ao trabalhar com conjuntos de dados pequenos, pois pode ajudar a aproveitar o conhecimento adquirido de um conjunto de dados maior para melhorar o desempenho do seu modelo.
Swipe to show code editor
Carregue o conjunto de dados iris
e utilize o método train_test_split
(o test_size
deve ser de 0.2
).
Solução
Obrigado pelo seu feedback!
Conjunto de Dados: Teste e Treinamento
Após ler o arquivo e pré-processar os dados, há outra etapa importante - dividir o conjunto de dados em conjuntos de teste e treino. Para que serve?
O conjunto de dados é dividido em conjuntos de treino e teste para avaliar a capacidade do modelo de generalizar para novos dados. Ao treinar o modelo em uma parte dos dados (conjunto de treino) e avaliá-lo em uma parte separada (conjunto de teste), podemos estimar o desempenho do modelo em dados novos e não vistos.
O objetivo é avaliar o desempenho de um modelo de aprendizado de máquina em novos dados: dados que não foram utilizados para treinar o modelo.
Essa divisão é implementada usando o método .train_test_split()
:
Você pode controlar o tamanho do conjunto de dados de treinamento usando o argumento test_size
. Para escolher o tamanho da razão entre o conjunto de teste e o conjunto de treinamento, experimente diferentes combinações, como 80-20 (treinamento e amostra de teste, respectivamente), 70-30 e 65-35, e escolha aquela que oferecer o melhor resultado de desempenho. A única regra que deve ser observada é que o tamanho do conjunto de teste deve ser menor que o de treinamento.
Se houver dados insuficientes para um modelo de aprendizado de máquina (underfitting, diferenças significativas entre o desempenho de treinamento e teste, etc.), você tem 2 opções:
-
Validação cruzada. Usar a validação cruzada para avaliar o desempenho do seu modelo, em vez de dividir seu conjunto de dados em um conjunto de treinamento e teste;
-
Transferência de aprendizagem. Isso envolve usar um modelo pré-treinado que foi treinado em um conjunto de dados maior e adaptá-lo ao seu próprio conjunto de dados. Isso pode ser útil ao trabalhar com conjuntos de dados pequenos, pois pode ajudar a aproveitar o conhecimento adquirido de um conjunto de dados maior para melhorar o desempenho do seu modelo.
Swipe to show code editor
Carregue o conjunto de dados iris
e utilize o método train_test_split
(o test_size
deve ser de 0.2
).
Solução
Obrigado pelo seu feedback!