Summary  
This chapter covers how to perform lemmatization—reducing words to their dictionary form—using NLTK’s WordNetLemmatizer and highlights specifying parts of speech to improve accuracy.  

General domain of usage  
Natural Language Processing

**Lemmatização** é uma técnica de normalização de texto utilizada em PLN para reduzir palavras à sua forma de dicionário, conhecida como **lema**.

Definição

Diferente do stemming, que remove afixos de forma bruta, a lematização considera o contexto e converte a palavra para sua **forma de dicionário**. Por exemplo, 'am', 'are' e 'is' são todos lematizados para 'be'. Essa abordagem pode reduzir significativamente o **tamanho do vocabulário** (o número de palavras únicas) em grandes corpora de texto, aumentando assim a eficiência durante o treinamento de modelos.

Por outro lado, embora a lematização seja mais precisa, ela também é mais **computacionalmente custosa** e pode ser demorada em conjuntos de dados grandes. Além disso, para obter ainda mais precisão, recomenda-se realizar análise morfológica e **etiquetagem de classe gramatical** antes da lematização.

Não se preocupe com **part-of-speech tagging** por enquanto, pois este será o próximo tópico que você irá aprender.

Nota

## Lemmatização com NLTK

O WordNet Lemmatizer, fornecido pela biblioteca NLTK, utiliza o corpus **WordNet** para realizar a lematização.

**WordNet** é um banco de dados lexical semanticamente rico para o inglês que vai muito além de um simples corpus. Ele agrupa palavras em conjuntos de sinônimos, ou **synsets**, cada um representando um conceito distinto e acompanhado de definições e exemplos de uso. Além disso, o WordNet codifica relações significativas entre esses synsets — como **hypernyms** (termos mais amplos e gerais) e **hyponyms** (termos mais restritos e específicos) — oferecendo uma estrutura poderosa para explorar e desambiguar significados de palavras.


Estude Mais

Ao utilizar o WordNet Lemmatizer, ele consulta a **base de dados WordNet** para encontrar o lema mais apropriado da palavra.

Como mencionado acima, como as palavras podem ter significados diferentes em diferentes contextos (por exemplo, "running" como verbo vs. "running" como substantivo), o lematizador pode exigir que você especifique a **classe gramatical** (por exemplo, verbo, substantivo, adjetivo). Isso o ajuda a selecionar o lema correto com base na função da palavra na frase.

from nltk.stem import WordNetLemmatizer
import nltk
# Download the WordNet corpus
nltk.download('wordnet')
# Initialize the WordNet lemmatizer
lemmatizer = WordNetLemmatizer()
# Parts of speech, 'v' for verb and 'n' for noun
parts_of_speech = ['v', 'n']
# Lemmatize words
lemmatized_words = [lemmatizer.lemmatize("running", pos) for pos in parts_of_speech]
print("Lemmatized words:", lemmatized_words)

Você pode omitir a especificação da classe gramatical ao chamar `lemmatizer.lemmatize("running")`, mas como pode perceber, diferentes classes gramaticais produzem resultados diferentes. Por isso, o ideal é realizar a **marcação de classe gramatical** previamente.

Qual é o principal benefício de usar lematização em comparação com stemming?

Explore os fundamentos do Processamento de Linguagem Natural (PLN) ao aprender técnicas essenciais de pré-processamento de texto e métodos para representação de dados textuais. Adquira experiência prática com ferramentas utilizadas para limpar, analisar e interpretar informações textuais. Desenvolva as habilidades necessárias para transformar linguagem bruta em insights estruturados, estabelecendo uma base sólida para aplicações avançadas em inteligência artificial e aprendizado de máquina.

Aprofunde-se nos fundamentos do pré-processamento de texto para preparar textos brutos para análise. Aprenda a tokenizar textos, filtrar stop words e personalizar a tokenização com expressões regulares.

Descubra como as palavras podem ser reduzidas às suas formas básicas utilizando stemming e lematização. Domine a marcação de classe gramatical para enriquecer o texto com contexto gramatical e aplique lematização sensível à classe gramatical.

Aprenda como textos podem ser representados por números utilizando modelos de espaço vetorial. Experimente na prática implementando e customizando dois modelos vetoriais populares: bag of words e TF-IDF.

Obtenha uma compreensão sólida sobre embeddings de palavras e como eles capturam significados semânticos. Explore as arquiteturas CBoW e Skip-gram utilizadas no Word2Vec e implemente-as por conta própria.

Lematização

Compreendendo a Lemmatização

Lemmatização com NLTK