Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Leer How Fine-Tuning Improves Transformers | Toepassen van Transformers op NLP-taken
Transformers voor Natuurlijke Taalverwerking

bookHow Fine-Tuning Improves Transformers

Veeg om het menu te tonen

Note
Definitie

Fine-tuning is een vorm van transfer learning waarbij een voorgetrainde Transformer, die al vertrouwd is met taalstructuren, verder wordt getraind op een kleinere, gelabelde dataset. Dit proces stelt het model in staat om zijn brede kennis aan te passen aan specifieke taken zoals text classification, sentiment analysis of named entity recognition.

Het Fine-Tuning Proces

Volg deze stappen om een voorgetraind model succesvol aan te passen en veelvoorkomende valkuilen in NLP te vermijden:

  • Bereid de dataset voor door tekst te schonen en labels om te zetten naar een numeriek formaat;
  • Tokeniseer de invoertekst met dezelfde tokenizer die tijdens de initiële training van het model is gebruikt;
  • Laad het voorgetrainde model en vervang de laatste outputlaag door een nieuwe "head" die is ontworpen voor de specifieke taak;
  • Train het model op de eigen data met een zeer lage learning rate om "catastrophic forgetting" van de oorspronkelijke kennis te voorkomen;
  • Evalueer de prestaties met een aparte testset om te waarborgen dat het model goed generaliseert naar nieuwe tekst.

Inzicht in Standaard Architectuurparameters

Bij het configureren van een Transformer-model worden specifieke parameters gebruikt om prestaties en rekenefficiëntie in balans te brengen:

  • Hidden size: Dit geeft de dimensionaliteit aan van de vector die wordt gebruikt om elk token te representeren.
    • Een grootte van 768 is standaard voor "Base"-modellen om complexe linguïstische patronen vast te leggen;
  • Attention heads: Dit aantal bepaalt hoeveel verschillende "perspectieven" het model gebruikt om relaties tussen woorden te analyseren.
    • 12 heads stellen het model in staat om gelijktijdig op verschillende grammaticale en semantische kenmerken te focussen;
  • Intermediate size: Gewoonlijk ingesteld op vier keer de hidden size, in dit geval 3072, bepaalt dit de breedte van de feed-forward netwerklagen;
  • Max position embeddings: Deze waarde definieert de maximale sequentielengte of het totale aantal tokens dat het model in één invoer kan verwerken, meestal 512;
  • Vocab size 30522: Dit geeft het totale aantal unieke tokens aan, inclusief woorden en subwoorden, die het model kan herkennen en verwerken;
  • Learning rate 2e-5: Deze kleine waarde is optimaal voor fine-tuning omdat het voorkomt dat het model de nuttige kennis uit de pre-training overschrijft.

1. Wat vertegenwoordigt de parameter "verborgen grootte" in een Transformer-modelarchitectuur?

2. Welke van de volgende is GEEN aanbevolen stap in het fine-tuningproces voor Transformers?

question mark

Wat vertegenwoordigt de parameter "verborgen grootte" in een Transformer-modelarchitectuur?

Selecteer het correcte antwoord

question mark

Welke van de volgende is GEEN aanbevolen stap in het fine-tuningproces voor Transformers?

Selecteer het correcte antwoord

Was alles duidelijk?

Hoe kunnen we het verbeteren?

Bedankt voor je feedback!

Sectie 3. Hoofdstuk 5

Vraag AI

expand

Vraag AI

ChatGPT

Vraag wat u wilt of probeer een van de voorgestelde vragen om onze chat te starten.

Sectie 3. Hoofdstuk 5
some-alt