single
Desafio: Avaliando Modelos de Transformadores
Deslize para mostrar o menu
Métricas de Avaliação para Tarefas de PLN
Ao finalizar o treinamento de um modelo Transformer para PLN, é necessário medir o desempenho na tarefa proposta.
Para calcular as métricas, será necessário calcular TP, TN, FN e FP.
TP (True Positive): número de amostras positivas corretamente previstas como positivas.
TN (True Negative): número de amostras negativas corretamente previstas como negativas.
FP (False Positive): número de amostras negativas incorretamente previstas como positivas.
FN (False Negative): número de amostras positivas incorretamente previstas como negativas.
- Acurácia é mais adequada para conjuntos de dados balanceados, onde cada classe possui aproximadamente o mesmo número de amostras;
- Precisão e Revocação tornam-se mais importantes quando há dados desbalanceados, como na detecção de spam, onde perder uma mensagem de spam (falso negativo) ou marcar incorretamente uma mensagem normal (falso positivo) tem custos diferentes;
- F1 combina precisão e revocação em um único número, facilitando a comparação de modelos em tarefas desbalanceadas;
- BLEU e ROUGE são utilizados para tarefas em que a saída é uma sequência, como tradução ou sumarização;
- Perplexidade é mais útil para modelos de linguagem que predizem a próxima palavra em uma sequência.
Interpretando Resultados de Avaliação e Melhorando o Desempenho do Modelo
Após calcular as métricas de avaliação para seu modelo Transformer, é importante compreender o significado dos resultados e como utilizá-los para aprimorar o modelo. Alta acurácia geralmente indica que o modelo está fazendo previsões corretas, mas se os dados forem desbalanceados, observe precisão, revocação e pontuação F1. Por exemplo, um modelo com alta precisão, mas baixa revocação, é conservador – só faz previsões positivas quando tem muita certeza, mas perde muitos verdadeiros positivos. Se a revocação é alta, mas a precisão é baixa, o modelo prevê mais positivos, mas inclui mais alarmes falsos.
Se o desempenho do modelo não for satisfatório, considere as seguintes formas de melhorá-lo:
- Coletar mais dados rotulados, especialmente para classes sub-representadas;
- Testar diferentes etapas de pré-processamento, como remoção de ruído ou balanceamento das classes;
- Ajustar hiperparâmetros, como taxa de aprendizado, tamanho do lote ou número de épocas;
- Modificar a arquitetura do modelo, como adicionar cabeças de atenção ou camadas;
- Utilizar técnicas de aumento de dados para aumentar a diversidade do conjunto de dados;
- Analisar erros para verificar se o modelo apresenta dificuldades com certos tipos de entradas.
Ao selecionar cuidadosamente a métrica adequada e interpretar os resultados, é possível diagnosticar as fraquezas do modelo e direcionar os esforços de melhoria para onde são mais necessários.
Deslize para começar a programar
Utilize o conhecimento adquirido nos capítulos anteriores para completar um pequeno cenário de avaliação para um classificador de texto baseado em Transformer.
- Dado um modelo que prevê se uma resenha de filme é positiva ou negativa, você tem os seguintes resultados em um conjunto de teste com 10 amostras:
- 6 resenhas são realmente positivas, 4 são realmente negativas;
- O modelo prevê: 5 positivas (4 corretas), 5 negativas (3 corretas).
- Calcule acurácia, precisão, recall e F1 score para a classe positiva;
- Insira suas respostas como decimais arredondados para duas casas.
Solução
Obrigado pelo seu feedback!
single
Pergunte à IA
Pergunte à IA
Pergunte o que quiser ou experimente uma das perguntas sugeridas para iniciar nosso bate-papo