Leer Zak van Woorden | Basis Tekstmodellen

Veeg om het menu te tonen

Inzicht in het BoW-model

Het bag of words (BoW) model stelt documenten voor als vectoren waarbij elke dimensie overeenkomt met een uniek woord. Elke dimensie kan ofwel de aanwezigheid van een woord in het document weergeven (1 als aanwezig, 0 als afwezig) of de frequentie (aantal keren dat het woord voorkomt). BoW-modellen kunnen dus binair of frequentie-gebaseerd zijn.

Hier volgt een voorbeeld van hoe dezelfde zin (document) door elk type wordt weergegeven:

Een binair model stelt dit document voor als de vector [1, 1, 1], terwijl een frequentie-gebaseerd model het weergeeft als [2, 1, 2], waarbij rekening wordt gehouden met de woordfrequentie.

BoW-implementatie

Het implementeren van het BoW-model is een eenvoudig proces, vooral met behulp van de sklearn (scikit-learn) bibliotheek en de CountVectorizer klasse.

Hier is een implementatie van het binaire bag of words-model:


              12345678910111213
            
from sklearn.feature_extraction.text import CountVectorizer

corpus = [
    'Global climate change poses significant risks to global ecosystems.',
    'Global warming and climate change demand urgent action.',
    'Sustainable environmental practices support environmental conservation.',
]
# Create a binary Bag of Words model
vectorizer = CountVectorizer(binary=True)
# Generate a BoW matrix
bow_matrix = vectorizer.fit_transform(corpus)
# Convert a sparse matrix into a dense array
print(bow_matrix.toarray())

Codebeschrijving

from sklearn.feature_extraction.text import CountVectorizer

Deze regel importeert de CountVectorizer klasse uit sklearn.

corpus = [
    'Global climate change poses significant risks to global ecosystems.',
    'Global warming and climate change demand urgent action.',
    'Sustainable environmental practices support environmental conservation.',
]

Deze regels definiëren een lijst genaamd corpus die drie string elementen bevat. Elke string is een tekstdocument.

vectorizer = CountVectorizer(binary=True)

Deze regel maakt een instantie van de CountVectorizer klasse aan. De parameter binary=True specificeert dat het model binaire tellingen moet gebruiken.

bow_matrix = vectorizer.fit_transform(corpus)

De methode past het model eerst aan op de data, leert de woordenschat van het corpus, en transformeert vervolgens de tekst- documenten naar een spaarzame matrix van token-tellingen (bag of words-matrix).

print(bow_matrix.toarray())

Deze regel zet de spaarzame matrix bow_matrix om naar een dichte array (numpy.ndarray) met behulp van de .toarray() methode en print deze.

Elke rij in de matrix komt overeen met een document, en elke kolom met een token (woord). Om dit visueel weer te geven, hebben we deze spaarzame matrix omgezet in een dichte 2D-array met behulp van de .toarray()-methode.

Meer leren

Een spaarzame matrix is een matrix waarin de meeste elementen nul zijn. Het wordt gebruikt om efficiënt gegevens met veel nulwaarden weer te geven en te verwerken, waarbij geheugen en rekenkracht worden bespaard door alleen de niet-nul elementen op te slaan.

Om een frequentiegebaseerd bag-of-words-model te maken, hoeven we alleen de parameter binary=True te verwijderen, aangezien de standaardwaarde hiervoor False is:


              1234567891011
            
from sklearn.feature_extraction.text import CountVectorizer

corpus = [
    'Global climate change poses significant risks to global ecosystems.',
    'Global warming and climate change demand urgent action.',
    'Sustainable environmental practices support environmental conservation.',
]
# Create a frequency-based Bag of Words model
vectorizer = CountVectorizer()
bow_matrix = vectorizer.fit_transform(corpus)
print(bow_matrix.toarray())

De matrix omzetten naar een DataFrame

Het kan erg handig zijn om de resulterende bag-of-words-matrix om te zetten naar een pandas DataFrame. Daarnaast biedt de CountVectorizer-instantie de methode get_feature_names_out(), waarmee een array van unieke woorden (feature names) die in het model zijn gebruikt, wordt opgehaald. Deze feature names kunnen vervolgens als kolommen van de DataFrame worden gebruikt:


              12345678910111213
            
from sklearn.feature_extraction.text import CountVectorizer
import pandas as pd

corpus = [
    'Global climate change poses significant risks to global ecosystems.',
    'Global warming and climate change demand urgent action.',
    'Sustainable environmental practices support environmental conservation.',
]
vectorizer = CountVectorizer()
bow_matrix = vectorizer.fit_transform(corpus)
# Convert a sparse matrix to a DataFrame
bow_df = pd.DataFrame(bow_matrix.toarray(), columns=vectorizer.get_feature_names_out())
print(bow_df)

Met deze representatie kunnen we nu eenvoudig niet alleen de vector voor een bepaald document benaderen, maar ook de vector van een specifiek woord:


              12345678910111213
            
from sklearn.feature_extraction.text import CountVectorizer
import pandas as pd

corpus = [
    'Global climate change poses significant risks to global ecosystems.',
    'Global warming and climate change demand urgent action.',
    'Sustainable environmental practices support environmental conservation.',
]
vectorizer = CountVectorizer()
bow_matrix = vectorizer.fit_transform(corpus)
bow_df = pd.DataFrame(bow_matrix.toarray(), columns=vectorizer.get_feature_names_out())
# Print the vector for 'global' as a NumPy array
print(f"Vector for the word 'global': {bow_df['global'].values}")

Aangezien elk uniek woord overeenkomt met een kolom, is het benaderen van een woordvector net zo eenvoudig als het benaderen van een kolom in de DataFrame door het woord op te geven (bijvoorbeeld 'global'). We gebruiken ook het values attribuut om een array in plaats van een Series als resultaat te verkrijgen.

Was alles duidelijk?

Bedankt voor je feedback!

Sectie 3. Hoofdstuk 3

Vraag AI

Vraag wat u wilt of probeer een van de voorgestelde vragen om onze chat te starten.

Sectie 3. Hoofdstuk 3