Svep för att visa menyn

Förståelse av POS-taggning

Vi har nämnt att ordklass-taggning är fördelaktigt för lemmatisering, vilket är dess huvudsakliga roll i textförbehandling, så låt oss diskutera denna process mer i detalj.

Definition

Ordklass-taggning (POS-taggning) är processen att märka upp ett ord i en text (korpus) som tillhörande en viss ordklass (t.ex. substantiv eller verb), baserat på både dess definition och dess kontext — det vill säga dess relation till angränsande och relaterade ord i en fras, mening eller stycke.

Att använda fullständiga namn på ordklasser (t.ex. "verb" eller "substantiv") kan bli ganska omständligt, särskilt med stora korpus. Därför används korta representationer, så kallade taggar, istället. Till exempel "VB" istället för verb. I praktiken kan dock olika POS-taggare använda något olika taggar och mer detaljerade taggar som "VBD" för verb i preteritum.

POS-tagging med NLTK

För att utföra part-of-speech-tagging med NLTK, importera funktionen pos_tag() direkt från nltk och tillämpa den på listan av strängar (token) genom att skicka den som argument.


              123456789101112
            
from nltk.tokenize import word_tokenize
from nltk import pos_tag
import nltk
nltk.download('punkt_tab')
# Download the model needed for NLTK's POS tagging
nltk.download('averaged_perceptron_tagger_eng')
text = "One of the key NLP tasks is part of speech tagging"
text = text.lower()
tokens = word_tokenize(text)
# Perform POS tagging
tagged_tokens = pos_tag(tokens)
print(tagged_tokens)

Denna funktion returnerar en lista av tupler, där varje tuple innehåller en token och dess tagg. Raden nltk.download('averaged_perceptron_tagger_eng') initierar nedladdningen av dataset och modeller som krävs för PerceptronTagger, vilket är standard POS-taggaren som används av NLTK.

Läs mer

Denna taggare är baserad på averaged perceptron-modellen, en övervakad inlärningsalgoritm som är effektiv för storskalig textbearbetning, inklusive POS-taggning. PerceptronTagger väljs för dess balans mellan hastighet och noggrannhet, vilket gör den lämplig för ett brett spektrum av NLP-uppgifter som kräver POS-taggning. Den lär sig vikter för egenskaper baserat på träningsdata den får, och använder dessa vikter för att förutsäga POS-taggar i osedd text.

För bättre visuell representation kan vi konvertera resultatet till en pandas DataFrame:


              1234567891011121314
            
from nltk.tokenize import word_tokenize
from nltk import pos_tag
import nltk
import pandas as pd
nltk.download('punkt_tab')
# Download the model needed for NLTK's POS tagging
nltk.download('averaged_perceptron_tagger_eng')
text = "One of the key NLP tasks is part of speech tagging"
text = text.lower()
tokens = word_tokenize(text)
# Perform POS tagging
tagged_tokens = pos_tag(tokens)
# Convert to DataFrame
print(pd.DataFrame(tagged_tokens, columns=['Token', 'POS tag']).T)

Alternativt kan vi använda pd.DataFrame(tagged_tokens, columns=['Token', 'POS tag']) utan att transponera DataFrame, så att varje rad representerar ett token-tag-par.

Var allt tydligt?

Tack för dina kommentarer!

Avsnitt 2. Kapitel 5

Fråga AI

Fråga vad du vill eller prova någon av de föreslagna frågorna för att starta vårt samtal

Ordklassmärkning