Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Aprenda Desafio: Avaliando Modelos de Transformadores | Aplicando Transformers a Tarefas de PLN
Transformers para Processamento de Linguagem Natural
Seção 3. Capítulo 6
single

single

bookDesafio: Avaliando Modelos de Transformadores

Deslize para mostrar o menu

Métricas de Avaliação para Tarefas de PLN

Ao finalizar o treinamento de um modelo Transformer para PLN, é necessário medir o desempenho na tarefa proposta. Para calcular as métricas, será necessário calcular TP, TN, FN e FP.

Note
Definição

TP (True Positive): número de amostras positivas corretamente previstas como positivas.
TN (True Negative): número de amostras negativas corretamente previstas como negativas.
FP (False Positive): número de amostras negativas incorretamente previstas como positivas.
FN (False Negative): número de amostras positivas incorretamente previstas como negativas.

  • Acurácia é mais adequada para conjuntos de dados balanceados, onde cada classe possui aproximadamente o mesmo número de amostras;
  • Precisão e Revocação tornam-se mais importantes quando há dados desbalanceados, como na detecção de spam, onde perder uma mensagem de spam (falso negativo) ou marcar incorretamente uma mensagem normal (falso positivo) tem custos diferentes;
  • F1 combina precisão e revocação em um único número, facilitando a comparação de modelos em tarefas desbalanceadas;
  • BLEU e ROUGE são utilizados para tarefas em que a saída é uma sequência, como tradução ou sumarização;
  • Perplexidade é mais útil para modelos de linguagem que predizem a próxima palavra em uma sequência.

Interpretando Resultados de Avaliação e Melhorando o Desempenho do Modelo

Após calcular as métricas de avaliação para seu modelo Transformer, é importante compreender o significado dos resultados e como utilizá-los para aprimorar o modelo. Alta acurácia geralmente indica que o modelo está fazendo previsões corretas, mas se os dados forem desbalanceados, observe precisão, revocação e pontuação F1. Por exemplo, um modelo com alta precisão, mas baixa revocação, é conservador – só faz previsões positivas quando tem muita certeza, mas perde muitos verdadeiros positivos. Se a revocação é alta, mas a precisão é baixa, o modelo prevê mais positivos, mas inclui mais alarmes falsos.

Se o desempenho do modelo não for satisfatório, considere as seguintes formas de melhorá-lo:

  • Coletar mais dados rotulados, especialmente para classes sub-representadas;
  • Testar diferentes etapas de pré-processamento, como remoção de ruído ou balanceamento das classes;
  • Ajustar hiperparâmetros, como taxa de aprendizado, tamanho do lote ou número de épocas;
  • Modificar a arquitetura do modelo, como adicionar cabeças de atenção ou camadas;
  • Utilizar técnicas de aumento de dados para aumentar a diversidade do conjunto de dados;
  • Analisar erros para verificar se o modelo apresenta dificuldades com certos tipos de entradas.

Ao selecionar cuidadosamente a métrica adequada e interpretar os resultados, é possível diagnosticar as fraquezas do modelo e direcionar os esforços de melhoria para onde são mais necessários.

Tarefa

Deslize para começar a programar

Utilize o conhecimento adquirido nos capítulos anteriores para completar um pequeno cenário de avaliação para um classificador de texto baseado em Transformer.

  • Dado um modelo que prevê se uma resenha de filme é positiva ou negativa, você tem os seguintes resultados em um conjunto de teste com 10 amostras:
    • 6 resenhas são realmente positivas, 4 são realmente negativas;
    • O modelo prevê: 5 positivas (4 corretas), 5 negativas (3 corretas).
  • Calcule acurácia, precisão, recall e F1 score para a classe positiva;
  • Insira suas respostas como decimais arredondados para duas casas.

Solução

Switch to desktopMude para o desktop para praticar no mundo realContinue de onde você está usando uma das opções abaixo
Tudo estava claro?

Como podemos melhorá-lo?

Obrigado pelo seu feedback!

Seção 3. Capítulo 6
single

single

Pergunte à IA

expand

Pergunte à IA

ChatGPT

Pergunte o que quiser ou experimente uma das perguntas sugeridas para iniciar nosso bate-papo

some-alt