single
Challenge: Evaluating Transformer Models
Свайпніть щоб показати меню
Метрики оцінювання для NLP-завдань
Після завершення навчання трансформерної моделі для NLP необхідно виміряти, наскільки добре вона виконує поставлене завдання.
Для обчислення метрик потрібно визначити TP, TN, FN та FP.
TP (True Positive): кількість позитивних зразків, правильно передбачених як позитивні.
TN (True Negative): кількість негативних зразків, правильно передбачених як негативні.
FP (False Positive): кількість негативних зразків, помилково передбачених як позитивні.
FN (False Negative): кількість позитивних зразків, помилково передбачених як негативні.
- Точність (Accuracy) найкраще підходить для збалансованих наборів даних, де кожен клас має приблизно однакову кількість зразків;
- Точність (Precision) та Повнота (Recall) стають важливішими при незбалансованих даних, наприклад, при виявленні спаму, де пропуск спам-повідомлення (хибнонегативний результат) або помилкове позначення звичайного повідомлення як спаму (хибнопозитивний результат) мають різну ціну;
- F1-міра поєднує точність і повноту в одне число, що полегшує порівняння моделей на незбалансованих завданнях;
- BLEU та ROUGE використовуються для завдань, де вихід є послідовністю, наприклад, переклад або реферування;
- Перплексія (Perplexity) найбільш корисна для мовних моделей, які передбачають наступне слово в послідовності.
Інтерпретація результатів оцінювання та покращення продуктивності моделі
Після обчислення метрик оцінювання для вашої моделі Transformer важливо зрозуміти, що означають результати, і як їх можна використати для покращення моделі. Висока точність зазвичай свідчить про те, що модель робить правильні передбачення, але якщо дані незбалансовані, звертайте увагу на точність, повноту та F1-міру. Наприклад, модель з високою точністю, але низькою повнотою є консервативною — вона робить позитивні передбачення лише тоді, коли дуже впевнена, але пропускає багато істинних позитивів. Якщо повнота висока, а точність низька, модель передбачає більше позитивів, але містить більше хибних спрацьовувань.
Якщо продуктивність моделі не задовольняє, розгляньте такі способи її покращення:
- Збір більшої кількості розмічених даних, особливо для недостатньо представлених класів;
- Спробуйте різні етапи попередньої обробки, наприклад, видалення шуму або балансування класів;
- Тонке налаштування гіперпараметрів, таких як швидкість навчання, розмір пакета або кількість епох;
- Зміна архітектури моделі, наприклад, додавання attention-голів або шарів;
- Використання технік аугментації даних для підвищення різноманітності набору даних;
- Аналіз помилок, щоб з'ясувати, чи модель має труднощі з певними типами вхідних даних.
Завдяки ретельному вибору правильної метрики та інтерпретації результатів ви зможете діагностувати слабкі сторони моделі та зосередити зусилля на їх покращенні там, де це найбільш важливо.
Проведіть, щоб почати кодувати
Використайте знання з попередніх розділів, щоб виконати невеликий сценарій оцінювання для трансформерного текстового класифікатора.
- Дано модель, яка передбачає, чи є відгук на фільм позитивним або негативним. Маєте такі результати на тестовій вибірці з 10 зразків:
- 6 відгуків дійсно позитивні, 4 — дійсно негативні;
- Модель передбачає: 5 позитивних (4 правильні), 5 негативних (3 правильні).
- Обчисліть точність (accuracy), прецизійність (precision), повноту (recall) та F1-метрику для позитивного класу;
- Введіть свої відповіді у вигляді десяткових дробів, округлених до двох знаків після коми.
Рішення
Дякуємо за ваш відгук!
single
Запитати АІ
Запитати АІ
Запитайте про що завгодно або спробуйте одне із запропонованих запитань, щоб почати наш чат