Desafio: Avaliando Modelos de Transformadores

Métricas de Avaliação para Tarefas de PLN

Ao finalizar o treinamento de um modelo Transformer para PLN, é necessário medir o desempenho na tarefa proposta. Para calcular as métricas, será necessário calcular TP, TN, FN e FP.

Definição

TP (True Positive): número de amostras positivas corretamente previstas como positivas.
TN (True Negative): número de amostras negativas corretamente previstas como negativas.
FP (False Positive): número de amostras negativas incorretamente previstas como positivas.
FN (False Negative): número de amostras positivas incorretamente previstas como negativas.

Acurácia é mais adequada para conjuntos de dados balanceados, onde cada classe possui aproximadamente o mesmo número de amostras;
Precisão e Revocação tornam-se mais importantes quando há dados desbalanceados, como na detecção de spam, onde perder uma mensagem de spam (falso negativo) ou marcar incorretamente uma mensagem normal (falso positivo) tem custos diferentes;
F1 combina precisão e revocação em um único número, facilitando a comparação de modelos em tarefas desbalanceadas;
BLEU e ROUGE são utilizados para tarefas em que a saída é uma sequência, como tradução ou sumarização;
Perplexidade é mais útil para modelos de linguagem que predizem a próxima palavra em uma sequência.

Interpretando Resultados de Avaliação e Melhorando o Desempenho do Modelo

Após calcular as métricas de avaliação para seu modelo Transformer, é importante compreender o significado dos resultados e como utilizá-los para aprimorar o modelo. Alta acurácia geralmente indica que o modelo está fazendo previsões corretas, mas se os dados forem desbalanceados, observe precisão, revocação e pontuação F1. Por exemplo, um modelo com alta precisão, mas baixa revocação, é conservador – só faz previsões positivas quando tem muita certeza, mas perde muitos verdadeiros positivos. Se a revocação é alta, mas a precisão é baixa, o modelo prevê mais positivos, mas inclui mais alarmes falsos.

Se o desempenho do modelo não for satisfatório, considere as seguintes formas de melhorá-lo:

Coletar mais dados rotulados, especialmente para classes sub-representadas;
Testar diferentes etapas de pré-processamento, como remoção de ruído ou balanceamento das classes;
Ajustar hiperparâmetros, como taxa de aprendizado, tamanho do lote ou número de épocas;
Modificar a arquitetura do modelo, como adicionar cabeças de atenção ou camadas;
Utilizar técnicas de aumento de dados para aumentar a diversidade do conjunto de dados;
Analisar erros para verificar se o modelo apresenta dificuldades com certos tipos de entradas.

Ao selecionar cuidadosamente a métrica adequada e interpretar os resultados, é possível diagnosticar as fraquezas do modelo e direcionar os esforços de melhoria para onde são mais necessários.

Tudo estava claro?

Obrigado pelo seu feedback!

Seção 3. Capítulo 6

single

Deslize para mostrar o menu

Métricas de Avaliação para Tarefas de PLN

Ao finalizar o treinamento de um modelo Transformer para PLN, é necessário medir o desempenho na tarefa proposta. Para calcular as métricas, será necessário calcular TP, TN, FN e FP.

Definição

TP (True Positive): número de amostras positivas corretamente previstas como positivas.
TN (True Negative): número de amostras negativas corretamente previstas como negativas.
FP (False Positive): número de amostras negativas incorretamente previstas como positivas.
FN (False Negative): número de amostras positivas incorretamente previstas como negativas.

Acurácia é mais adequada para conjuntos de dados balanceados, onde cada classe possui aproximadamente o mesmo número de amostras;
Precisão e Revocação tornam-se mais importantes quando há dados desbalanceados, como na detecção de spam, onde perder uma mensagem de spam (falso negativo) ou marcar incorretamente uma mensagem normal (falso positivo) tem custos diferentes;
F1 combina precisão e revocação em um único número, facilitando a comparação de modelos em tarefas desbalanceadas;
BLEU e ROUGE são utilizados para tarefas em que a saída é uma sequência, como tradução ou sumarização;
Perplexidade é mais útil para modelos de linguagem que predizem a próxima palavra em uma sequência.

Interpretando Resultados de Avaliação e Melhorando o Desempenho do Modelo

Após calcular as métricas de avaliação para seu modelo Transformer, é importante compreender o significado dos resultados e como utilizá-los para aprimorar o modelo. Alta acurácia geralmente indica que o modelo está fazendo previsões corretas, mas se os dados forem desbalanceados, observe precisão, revocação e pontuação F1. Por exemplo, um modelo com alta precisão, mas baixa revocação, é conservador – só faz previsões positivas quando tem muita certeza, mas perde muitos verdadeiros positivos. Se a revocação é alta, mas a precisão é baixa, o modelo prevê mais positivos, mas inclui mais alarmes falsos.

Se o desempenho do modelo não for satisfatório, considere as seguintes formas de melhorá-lo:

Coletar mais dados rotulados, especialmente para classes sub-representadas;
Testar diferentes etapas de pré-processamento, como remoção de ruído ou balanceamento das classes;
Ajustar hiperparâmetros, como taxa de aprendizado, tamanho do lote ou número de épocas;
Modificar a arquitetura do modelo, como adicionar cabeças de atenção ou camadas;
Utilizar técnicas de aumento de dados para aumentar a diversidade do conjunto de dados;
Analisar erros para verificar se o modelo apresenta dificuldades com certos tipos de entradas.

Ao selecionar cuidadosamente a métrica adequada e interpretar os resultados, é possível diagnosticar as fraquezas do modelo e direcionar os esforços de melhoria para onde são mais necessários.

Tarefa

Deslize para começar a programar

Utilize o conhecimento adquirido nos capítulos anteriores para completar um pequeno cenário de avaliação para um classificador de texto baseado em Transformer.

Dado um modelo que prevê se uma resenha de filme é positiva ou negativa, você tem os seguintes resultados em um conjunto de teste com 10 amostras:
- 6 resenhas são realmente positivas, 4 são realmente negativas;
- O modelo prevê: 5 positivas (4 corretas), 5 negativas (3 corretas).
Calcule acurácia, precisão, recall e F1 score para a classe positiva;
Insira suas respostas como decimais arredondados para duas casas.

Solução

Mude para o desktop para praticar no mundo realContinue de onde você está usando uma das opções abaixo

Tudo estava claro?

Obrigado pelo seu feedback!

Seção 3. Capítulo 6

single

Pergunte à IA

Pergunte o que quiser ou experimente uma das perguntas sugeridas para iniciar nosso bate-papo