Lære Hvorfor RNN'er og CNN'er Ikke Slår Til i NLP | Forståelse af Transformer-Grundlag

Stryg for at vise menuen

Ved arbejde med natural language processing strækker sprogets struktur og betydning sig ofte over lange tekststrækninger. Tidlige dybe læringsmodeller som recurrent neural networks (RNNs) og convolutional neural networks (CNNs) blev tilpasset fra andre domæner til at håndtere sekventielle data, men begge tilgange støder på væsentlige begrænsninger, når de anvendes på sprog.

RNNs behandler inputsekvenser én token ad gangen og opretholder en skjult tilstand, der opdateres trin for trin. Denne sekventielle tilgang gør det umuligt at parallelisere beregninger på tværs af tidssteg, hvilket sænker hastigheden på træning og inferens. Desuden har gradienter, der føres tilbage gennem mange trin, en tendens til at blive eksponentielt mindre, hvilket kaldes vanishing gradient-problemet. Dette gør det vanskeligt for RNNs at lære afhængigheder fra fjerne dele af en sekvens, hvilket især er problematisk for opgaver som dokumentklassificering eller maskinoversættelse, hvor kontekst fra tidligere i teksten kan være afgørende.

CNNs anvender derimod konvolutionsfiltre over faste vinduer af inputtet. Selvom CNNs muliggør en vis grad af parallelisering og effektivt kan opfange lokale mønstre, betyder deres lokale receptive felter, at hvert output kun påvirkes af et begrænset kontekstvindue. For at opfange længere afhængigheder skal man stable mange konvolutionslag eller øge filterstørrelserne, hvilket hurtigt bliver ineffektivt og stadig har svært ved at modellere relationer mellem fjerntliggende ord i en sætning.

Disse begrænsninger bliver særligt tydelige i virkelige tekstklassificerings- eller sekvensforudsigelsesopgaver. For eksempel kan sentimentet i en sætning ved sentimentanalyse afhænge af et ord i begyndelsen og et andet i slutningen. RNNs kan have svært ved at forbinde disse ord på grund af vanishing gradients, mens CNNs helt kan overse den langtrækkende forbindelse, hvis den falder uden for deres receptive felt.

Transformers løser disse begrænsninger ved at bruge en self-attention-mekanisme, der gør det muligt for hver token i inputtet direkte at fokusere på alle andre tokens, uanset deres position i sekvensen. Dette gør modellen i stand til effektivt at opfange langtrækkende afhængigheder og muliggør parallelisering af beregninger på tværs af alle positioner i sekvensen, hvilket øger hastigheden på træning og inferens betydeligt.

Følgende tabel opsummerer de vigtigste forskelle mellem RNNs, CNNs og Transformers på egenskaber, der er relevante for NLP-opgaver:

Denne sammenligning fremhæver, hvorfor Transformers er blevet den foretrukne arkitektur til moderne NLP-applikationer.

Var alt klart?

Tak for dine kommentarer!

Sektion 1. Kapitel 2

Spørg AI

Spørg om hvad som helst eller prøv et af de foreslåede spørgsmål for at starte vores chat

Sektion 1. Kapitel 2