Вивчайте Чому RNN та CNN не підходять для NLP

Свайпніть щоб показати меню

Під час роботи з обробкою природної мови структура та зміст мови часто охоплюють великі відрізки тексту. Ранні моделі глибокого навчання, такі як рекурентні нейронні мережі (RNNs) та конволюційні нейронні мережі (CNNs), були адаптовані з інших галузей для роботи з послідовними даними, але обидва підходи стикаються з критичними вузькими місцями при застосуванні до мови.

RNNs обробляють вхідні послідовності по одному токену, підтримуючи прихований стан, який оновлюється крок за кроком. Така послідовна природа унеможливлює паралелізацію обчислень між часовими кроками, що уповільнює навчання та інференс. Крім того, зі збільшенням довжини послідовності градієнти, що передаються назад через багато кроків, мають тенденцію експоненційно зменшуватися — це явище відоме як проблема зникнення градієнта. Це ускладнює для RNNs навчання залежностей із віддалених частин послідовності, що особливо проблематично для завдань, таких як класифікація документів або машинний переклад, де контекст із початку тексту може бути вирішальним.

CNNs, навпаки, застосовують конволюційні фільтри до фіксованих вікон вхідних даних. Хоча CNNs дозволяють певну паралелізацію та ефективно захоплюють локальні патерни, їхні локальні рецептивні поля означають, що кожен вихід залежить лише від обмеженого контекстного вікна. Щоб охопити довші залежності, потрібно складати багато конволюційних шарів або збільшувати розмір фільтрів, що швидко стає неефективним і все одно не дозволяє моделювати зв'язки між віддаленими словами у реченні.

Ці вузькі місця особливо помітні у реальних завданнях класифікації тексту або прогнозування послідовностей. Наприклад, у задачі аналізу тональності, настрій речення може залежати від слова на початку та іншого слова наприкінці. RNNs можуть не впоратися з поєднанням цих слів через зникнення градієнтів, а CNNs можуть зовсім не вловити далекі зв'язки, якщо вони виходять за межі їхнього рецептивного поля.

Трансформери долають ці обмеження завдяки механізму самоуваги, який дозволяє кожному токену у вхідних даних безпосередньо звертати увагу на будь-який інший токен, незалежно від їхньої позиції у послідовності. Це дає змогу моделі ефективно захоплювати довготривалі залежності та паралелізувати обчислення для всіх позицій у послідовності, значно прискорюючи навчання та інференс.

У наступній таблиці підсумовано ключові відмінності між RNNs, CNNs та Transformers за властивостями, важливими для завдань обробки природної мови:

Це порівняння підкреслює, чому Трансформери стали основною архітектурою для сучасних NLP-застосунків.

Які з наведених є ключовими технічними обмеженнями RNN і CNN у NLP, і як трансформери їх долають?

Виберіть усі правильні відповіді

RNN страждають від зникнення градієнтів, що ускладнює захоплення довготривалих залежностей.

CNN мають локальні рецептивні поля та мають труднощі зі зв'язками між віддаленими словами.

Трансформери використовують self-attention, що дозволяє кожному токену звертати увагу на всі інші токени.

Трансформери можуть бути ефективно паралелізовані по всіх позиціях послідовності.

Трансформери все ще страждають від зникнення градієнтів, як і RNN.

RNN не можуть бути паралелізовані по позиціях послідовності, що робить навчання та інференс повільними.

Все було зрозуміло?

Дякуємо за ваш відгук!

Секція 1. Розділ 2

Запитати АІ

Запитайте про що завгодно або спробуйте одне із запропонованих запитань, щоб почати наш чат

Секція 1. Розділ 2