Lære Hvorfor RNN-er og CNN-er Ikke Strekker Til i NLP | Forståelse av transformer-grunnprinsipper

Sveip for å vise menyen

Ved arbeid med naturlig språkprosessering strekker ofte struktur og mening i språket seg over lange tekststrekninger. Tidlige dyp læringsmodeller som recurrent neural networks (RNNs) og convolutional neural networks (CNNs) ble tilpasset fra andre domener for å håndtere sekvensielle data, men begge tilnærmingene møter kritiske begrensninger når de brukes på språk.

RNNs behandler inndata-sekvenser én token om gangen, og opprettholder en skjult tilstand som oppdateres steg for steg. Denne sekvensielle naturen gjør det umulig å parallellisere beregninger på tvers av tidssteg, noe som gjør trening og inferens tregere. I tillegg, etter hvert som sekvensen blir lengre, har gradientene som sendes tilbake gjennom mange steg en tendens til å krympe eksponentielt – et fenomen kjent som vanishing gradient problem. Dette gjør det vanskelig for RNNs å lære avhengigheter fra fjerne deler av en sekvens, noe som er spesielt problematisk for oppgaver som dokumentklassifisering eller maskinoversettelse, hvor kontekst fra tidligere i teksten kan være avgjørende.

CNNs, derimot, bruker konvolusjonsfiltre over vinduer av fast størrelse i inndataene. Selv om CNNs tillater noe parallellisering og effektivt kan fange opp lokale mønstre, betyr deres lokale reseptive felt at hvert utdata kun påvirkes av et begrenset kontekstvindu. For å fange opp lengre avhengigheter må man stable mange konvolusjonslag eller øke filterstørrelsene, noe som raskt blir ineffektivt og fortsatt har utfordringer med å modellere relasjoner mellom fjerne ord i en setning.

Disse begrensningene blir spesielt tydelige i reelle oppgaver som tekstklassifisering eller sekvensprediksjon. For eksempel, i sentimentanalyse kan stemningen i en setning avhenge av et ord i begynnelsen og et annet på slutten. RNNs kan ha problemer med å koble disse ordene på grunn av forsvinnende gradienter, mens CNNs kan gå glipp av langdistanseforbindelsen helt hvis den faller utenfor deres reseptive felt.

Transformers løser disse begrensningene ved å bruke en self-attention-mekanisme som lar hver token i inndataene direkte fokusere på alle andre tokens, uavhengig av posisjon i sekvensen. Dette gjør det mulig for modellen å fange opp langdistanseavhengigheter effektivt og muliggjør parallellisering av beregninger over alle posisjoner i sekvensen, noe som gir betydelig raskere trening og inferens.

Tabellen under oppsummerer de viktigste forskjellene mellom RNNs, CNNs og Transformers på egenskaper som er viktige for NLP-oppgaver:

Denne sammenligningen fremhever hvorfor Transformers har blitt den foretrukne arkitekturen for moderne NLP-applikasjoner.

Alt var klart?

Takk for tilbakemeldingene dine!

Seksjon 1. Kapittel 2

Spør AI

Spør om hva du vil, eller prøv ett av de foreslåtte spørsmålene for å starte chatten vår

Seksjon 1. Kapittel 2