Vektoritiila-Mallien Tyypit
Vektoriavaruusmalleja voidaan luokitella tekstin esitystavan perusteella, yksinkertaisista frekvenssipohjaisista menetelmistä kehittyneempiin, kontekstia huomioiviin upotuksiin. Jokaisella lähestymistavalla on omat etunsa ja ne soveltuvat erilaisiin NLP-tehtäviin.
Bag of Words
Bag of words (BoW) on vektoriavaruusmalli, joka esittää dokumentit vektoreina, joissa jokainen ulottuvuus vastaa yksittäistä sanaa. Malli voi olla binäärinen (osoittaa sanan esiintymisen) tai frekvenssipohjainen (osoittaa sanan esiintymiskertojen määrän).
Tässä on esimerkki frekvenssipohjaisesta BoW-mallista:
Kuten huomaat, jokainen dokumentti esitetään vektorina, jossa jokainen ulottuvuus vastaa tietyn sanan frekvenssiä kyseisessä dokumentissa. Binäärisessä bag of words -mallissa jokainen vektori sisältäisi vain 0 tai 1 kullekin sanalle, mikä ilmaisee sanan puuttumisen tai esiintymisen.
Tekstin esikäsittely on välttämätön vaihe ennen BoW- tai vastaavien mallien soveltamista.
TF-IDF
TF-IDF (term frequency-inverse document frequency) -malli laajentaa bag of words (BoW) -lähestymistapaa säätämällä sanan esiintymistiheyttä sen perusteella, kuinka usein sana esiintyy kaikissa dokumenteissa. Malli korostaa dokumentille ainutlaatuisia sanoja, tarjoten näin tarkempaa tietoa dokumentin sisällöstä.
Tämä saavutetaan yhdistämällä termin esiintymistiheys (kuinka monta kertaa sana esiintyy dokumentissa) ja käänteinen dokumenttitiheys (mittari sille, kuinka yleinen tai harvinainen sana on koko aineistossa).
Alla on esimerkki TF-IDF:n soveltamisesta aiemman esimerkin dokumentteihin:
TF-IDF:n rikastamat vektorit osoittavat suurempaa vaihtelua ja tarjoavat syvällisempää tietoa dokumentin sisällöstä.
Sanaupotukset ja asiakirjaupotukset
Sanaupotukset kartoittavat yksittäiset sanat tiheiksi vektoreiksi mataladimensionaalisessa, jatkuvassa avaruudessa, vangiten semanttisia samankaltaisuuksia, joita ei voi suoraan tulkita.
Asiakirjaupotukset puolestaan tuottavat tiheitä vektoreita, jotka edustavat kokonaisia asiakirjoja, vangiten niiden yleisen semanttisen merkityksen.
Upotusten ulottuvuus (koko) valitaan tyypillisesti projektin vaatimusten ja käytettävissä olevien laskentaresurssien perusteella. Oikean koon valinta on ratkaisevaa, jotta voidaan tasapainottaa rikkaan semanttisen informaation vangitseminen ja mallin tehokkuus.
Tässä on esimerkki siitä, miltä sanaupotukset sanoille "cat", "kitten", "dog" ja "house" saattavat näyttää:
Vaikka tämän taulukon numeeriset arvot ovat satunnaisia, ne havainnollistavat, kuinka upotukset voivat kuvata merkityksellisiä suhteita sanojen välillä.
Todellisissa sovelluksissa tällaiset upotukset opitaan kouluttamalla mallia suurella tekstikorpuksella, jolloin malli pystyy löytämään hienovaraisia kuvioita ja semanttisia suhteita luonnollisesta kielestä.
Tiheiden esitysten jatkokehitys, kontekstuaaliset upotukset (jotka tuotetaan malleilla kuten BERT ja GPT), ottaa huomioon sanan esiintymiskontekstin vektorin muodostamisessa. Tämä tarkoittaa, että samalla sanalla voi olla eri upotukset eri lauseissa käytettynä, mikä mahdollistaa kielen vivahteikkaan ymmärtämisen.
Kiitos palautteestasi!
Kysy tekoälyä
Kysy tekoälyä
Kysy mitä tahansa tai kokeile jotakin ehdotetuista kysymyksistä aloittaaksesi keskustelumme
Awesome!
Completion rate improved to 3.45
Vektoritiila-Mallien Tyypit
Pyyhkäise näyttääksesi valikon
Vektoriavaruusmalleja voidaan luokitella tekstin esitystavan perusteella, yksinkertaisista frekvenssipohjaisista menetelmistä kehittyneempiin, kontekstia huomioiviin upotuksiin. Jokaisella lähestymistavalla on omat etunsa ja ne soveltuvat erilaisiin NLP-tehtäviin.
Bag of Words
Bag of words (BoW) on vektoriavaruusmalli, joka esittää dokumentit vektoreina, joissa jokainen ulottuvuus vastaa yksittäistä sanaa. Malli voi olla binäärinen (osoittaa sanan esiintymisen) tai frekvenssipohjainen (osoittaa sanan esiintymiskertojen määrän).
Tässä on esimerkki frekvenssipohjaisesta BoW-mallista:
Kuten huomaat, jokainen dokumentti esitetään vektorina, jossa jokainen ulottuvuus vastaa tietyn sanan frekvenssiä kyseisessä dokumentissa. Binäärisessä bag of words -mallissa jokainen vektori sisältäisi vain 0 tai 1 kullekin sanalle, mikä ilmaisee sanan puuttumisen tai esiintymisen.
Tekstin esikäsittely on välttämätön vaihe ennen BoW- tai vastaavien mallien soveltamista.
TF-IDF
TF-IDF (term frequency-inverse document frequency) -malli laajentaa bag of words (BoW) -lähestymistapaa säätämällä sanan esiintymistiheyttä sen perusteella, kuinka usein sana esiintyy kaikissa dokumenteissa. Malli korostaa dokumentille ainutlaatuisia sanoja, tarjoten näin tarkempaa tietoa dokumentin sisällöstä.
Tämä saavutetaan yhdistämällä termin esiintymistiheys (kuinka monta kertaa sana esiintyy dokumentissa) ja käänteinen dokumenttitiheys (mittari sille, kuinka yleinen tai harvinainen sana on koko aineistossa).
Alla on esimerkki TF-IDF:n soveltamisesta aiemman esimerkin dokumentteihin:
TF-IDF:n rikastamat vektorit osoittavat suurempaa vaihtelua ja tarjoavat syvällisempää tietoa dokumentin sisällöstä.
Sanaupotukset ja asiakirjaupotukset
Sanaupotukset kartoittavat yksittäiset sanat tiheiksi vektoreiksi mataladimensionaalisessa, jatkuvassa avaruudessa, vangiten semanttisia samankaltaisuuksia, joita ei voi suoraan tulkita.
Asiakirjaupotukset puolestaan tuottavat tiheitä vektoreita, jotka edustavat kokonaisia asiakirjoja, vangiten niiden yleisen semanttisen merkityksen.
Upotusten ulottuvuus (koko) valitaan tyypillisesti projektin vaatimusten ja käytettävissä olevien laskentaresurssien perusteella. Oikean koon valinta on ratkaisevaa, jotta voidaan tasapainottaa rikkaan semanttisen informaation vangitseminen ja mallin tehokkuus.
Tässä on esimerkki siitä, miltä sanaupotukset sanoille "cat", "kitten", "dog" ja "house" saattavat näyttää:
Vaikka tämän taulukon numeeriset arvot ovat satunnaisia, ne havainnollistavat, kuinka upotukset voivat kuvata merkityksellisiä suhteita sanojen välillä.
Todellisissa sovelluksissa tällaiset upotukset opitaan kouluttamalla mallia suurella tekstikorpuksella, jolloin malli pystyy löytämään hienovaraisia kuvioita ja semanttisia suhteita luonnollisesta kielestä.
Tiheiden esitysten jatkokehitys, kontekstuaaliset upotukset (jotka tuotetaan malleilla kuten BERT ja GPT), ottaa huomioon sanan esiintymiskontekstin vektorin muodostamisessa. Tämä tarkoittaa, että samalla sanalla voi olla eri upotukset eri lauseissa käytettynä, mikä mahdollistaa kielen vivahteikkaan ymmärtämisen.
Kiitos palautteestasi!