Aprende Por Qué las RNN y las CNN No Son Suficientes en PLN | Fundamentos de Comprensión de Transformers

Desliza para mostrar el menú

Al trabajar con el procesamiento de lenguaje natural, la estructura y el significado del lenguaje suelen extenderse a lo largo de grandes fragmentos de texto. Los primeros modelos de aprendizaje profundo como las redes neuronales recurrentes (RNNs) y las redes neuronales convolucionales (CNNs) fueron adaptados de otros dominios para manejar datos secuenciales, pero ambos enfoques presentan cuellos de botella críticos cuando se aplican al lenguaje.

Las RNNs procesan secuencias de entrada un token a la vez, manteniendo un estado oculto que se actualiza paso a paso. Esta naturaleza secuencial hace imposible paralelizar los cálculos a través de los pasos temporales, lo que ralentiza el entrenamiento y la inferencia. Además, a medida que la secuencia se alarga, los gradientes que se retropropagan a través de muchos pasos tienden a disminuir exponencialmente, un fenómeno conocido como el problema del gradiente desvanecido. Esto dificulta que las RNNs aprendan dependencias de partes distantes de una secuencia, lo cual es especialmente problemático para tareas como la clasificación de documentos o la traducción automática, donde el contexto de las primeras partes del texto puede ser crucial.

Por otro lado, las CNNs aplican filtros convolucionales sobre ventanas de tamaño fijo de la entrada. Si bien las CNNs permiten cierta paralelización y pueden capturar patrones locales de manera eficiente, sus campos receptivos locales implican que cada salida solo está influenciada por una ventana de contexto limitada. Para capturar dependencias más largas, es necesario apilar muchas capas convolucionales o aumentar el tamaño de los filtros, lo que rápidamente se vuelve ineficiente y aún así tiene dificultades para modelar relaciones entre palabras distantes en una oración.

Estos cuellos de botella se hacen especialmente evidentes en tareas reales de clasificación de texto o predicción de secuencias. Por ejemplo, en el análisis de sentimientos, el sentimiento de una oración puede depender de una palabra al principio y otra al final. Las RNNs pueden tener dificultades para conectar estas palabras debido al gradiente desvanecido, mientras que las CNNs pueden perder la conexión de largo alcance por completo si queda fuera de su campo receptivo.

Los Transformers abordan estas limitaciones utilizando un mecanismo de autoatención que permite que cada token de la entrada atienda directamente a cualquier otro token, sin importar su posición en la secuencia. Esto permite que el modelo capture dependencias de largo alcance de manera eficiente y hace posible paralelizar los cálculos en todas las posiciones de la secuencia, acelerando considerablemente el entrenamiento y la inferencia.

La siguiente tabla resume las diferencias clave entre RNNs, CNNs y Transformers en propiedades relevantes para tareas de PLN:

Esta comparación resalta por qué los Transformers se han convertido en la arquitectura preferida para las aplicaciones modernas de PLN.

¿Cuáles de las siguientes son limitaciones técnicas clave de las RNN y las CNN en PLN, y cómo las superan los Transformers?

Selecciona todas las respuestas correctas

Las RNN sufren del problema de gradientes que desaparecen, lo que dificulta capturar dependencias a largo plazo.

Las CNN tienen campos receptivos locales y tienen dificultades con las relaciones entre palabras distantes.

Los Transformers utilizan auto-atención para permitir que cada token atienda a cualquier otro token.

Los Transformers pueden ser paralelizados eficientemente en todas las posiciones de la secuencia.

Los Transformers todavía sufren del problema de gradientes que desaparecen como las RNN.

Las RNN no pueden ser paralelizadas en las posiciones de la secuencia, lo que hace que el entrenamiento y la inferencia sean lentos.

¿Todo estuvo claro?

¡Gracias por tus comentarios!

Sección 1. Capítulo 2

Pregunte a AI

Pregunte lo que quiera o pruebe una de las preguntas sugeridas para comenzar nuestra charla

Sección 1. Capítulo 2