Aprenda Tf-Idf | Modelos Básicos de Texto

Compreendendo o TF-IDF

Embora o modelo de bag of words seja simples e eficaz, ele tende a supervalorizar termos comuns, dificultando a identificação de palavras menos frequentes, porém mais informativas. Para resolver esse problema, o modelo TF-IDF é frequentemente utilizado.

Definição

TF-IDF (term frequency-inverse document frequency) é uma medida estatística que reflete a importância de uma palavra em um documento específico em relação a um corpus maior.

Ao contrário do BoW, que se baseia na contagem bruta de termos, o TF-IDF considera tanto a frequência do termo dentro de um documento quanto sua frequência inversa em todo o corpus. Isso reduz a influência de termos comuns e destaca aqueles mais raros e informativos.

Como o TF-IDF Funciona

O score TF-IDF para um termo em um documento é calculado como:

\def\tfidf{\operatorname{tf-idf}} \def\tf{\operatorname{tf}} \def\idf{\operatorname{idf}} \tfidf(t, d) = \tf(t, d) \times \idf(t)

onde:

$t$ é o termo (uma palavra ou n-grama);
$d$ é o documento.

Existem várias variantes para calcular os valores de $\operatorname{tf}$ e $\operatorname{idf}$ . Veja uma opção comum para cada um:

Frequência do termo (TF)

Indica com que frequência um termo aparece em um documento, capturando sua importância relativa dentro desse documento. Semelhante ao modelo bag of words, geralmente é usada uma contagem simples:

\def\tf{\operatorname{tf}} \def\count{\operatorname{count}} \tf(t, d) = \count(t, d)

Frequência inversa de documentos (IDF)

Mede quão raro é um termo em todo o corpus. Pode ser calculado como o logaritmo natural da razão entre o número total de documentos e o número de documentos que contêm o termo:

\def\idf{\operatorname{idf}} \def\df{\operatorname{df}} \idf(t) = \log\Bigl(\frac{1 + N_{documents}}{1 + \df(t)}\Bigr) + 1

Esta fórmula utiliza suavização (adicionando 1) para evitar divisão por zero e garante que até mesmo termos comuns recebam um score IDF diferente de zero. Na prática, o IDF reduz o peso de termos frequentes e enfatiza termos mais informativos e raros.

Sem o componente IDF, o TF-IDF se reduziria a uma simples contagem de termos — essencialmente retornando ao modelo bag of words.

Calculando o TF-IDF

Veja um exemplo simples:

Neste caso, temos apenas dois documentos e estamos utilizando apenas unigramas (palavras individuais), portanto, os cálculos são diretos. Começamos calculando as frequências de termos para cada palavra em ambos os documentos, seguidos pelos valores de IDF para os termos "a" e "is".

Nota

Como há apenas dois documentos em nosso corpus, todo termo que aparece em ambos os documentos terá um valor de IDF igual a 1, enquanto outros termos terão um valor de IDF igual a ~1.406465.

Por fim, podemos calcular os valores de TF-IDF para cada termo em cada documento multiplicando TF por IDF, resultando na seguinte matriz:

Normalização L2

Os vetores TF-IDF resultantes podem variar significativamente em magnitude, especialmente em grandes corpora, devido às diferenças no comprimento dos documentos. Por isso, a normalização L2 é comumente aplicada — para ajustar todos os vetores a um comprimento uniforme, permitindo comparações justas e imparciais entre documentos de diferentes tamanhos.

Estude Mais

A normalização L2, também conhecida como normalização Euclidiana, é um processo aplicado a vetores individuais que ajusta seus valores para garantir que o comprimento do vetor seja 1.

A normalização L2 é realizada dividindo cada termo do vetor pela norma Euclidiana do vetor.

Se o vetor do documento for assim:

d = (w_1, w_2, w_3, ..., w_N)

onde $w_i$ é o peso do termo $i$ ,

então a norma Euclidiana é assim:

\|d\|_2 = \sqrt{w^2_1 + w^2_2 + w^2_3 + ... + w^2_N}

e o vetor normalizado é assim:

d_{norm} = \Bigl(\frac{w_1}{\|d\|_2}, \frac{w_2}{\|d\|_2}, \frac{w_3}{\|d\|_2}, ..., \frac{w_N}{\|d\|_2})

Veja como a normalização L2 funciona para um vetor bidimensional (um documento com 2 termos):

Nota

Não se preocupe se as fórmulas parecerem complexas. Tudo o que estamos fazendo é dividir cada valor de TF-IDF em um documento pelo comprimento (ou magnitude) do vetor TF-IDF desse documento. Isso ajusta o vetor para que seu comprimento se torne 1, garantindo comparações consistentes entre vetores.

Agora vamos aplicar a normalização L2 à nossa matriz TF-IDF, que calculamos acima:

A matriz resultante é exatamente a que tivemos como exemplo em um dos capítulos anteriores.

Tudo estava claro?

Obrigado pelo seu feedback!

Seção 3. Capítulo 6

Pergunte à IA

Pergunte o que quiser ou experimente uma das perguntas sugeridas para iniciar nosso bate-papo

Awesome!

Completion rate improved to 3.45

Deslize para mostrar o menu

Compreendendo o TF-IDF

Definição

TF-IDF (term frequency-inverse document frequency) é uma medida estatística que reflete a importância de uma palavra em um documento específico em relação a um corpus maior.

Como o TF-IDF Funciona

O score TF-IDF para um termo em um documento é calculado como:

\def\tfidf{\operatorname{tf-idf}} \def\tf{\operatorname{tf}} \def\idf{\operatorname{idf}} \tfidf(t, d) = \tf(t, d) \times \idf(t)

onde:

$t$ é o termo (uma palavra ou n-grama);
$d$ é o documento.

Existem várias variantes para calcular os valores de $\operatorname{tf}$ e $\operatorname{idf}$ . Veja uma opção comum para cada um:

Frequência do termo (TF)

\def\tf{\operatorname{tf}} \def\count{\operatorname{count}} \tf(t, d) = \count(t, d)

Frequência inversa de documentos (IDF)

Mede quão raro é um termo em todo o corpus. Pode ser calculado como o logaritmo natural da razão entre o número total de documentos e o número de documentos que contêm o termo:

\def\idf{\operatorname{idf}} \def\df{\operatorname{df}} \idf(t) = \log\Bigl(\frac{1 + N_{documents}}{1 + \df(t)}\Bigr) + 1

Sem o componente IDF, o TF-IDF se reduziria a uma simples contagem de termos — essencialmente retornando ao modelo bag of words.

Calculando o TF-IDF

Veja um exemplo simples:

Nota

Como há apenas dois documentos em nosso corpus, todo termo que aparece em ambos os documentos terá um valor de IDF igual a 1, enquanto outros termos terão um valor de IDF igual a ~1.406465.

Por fim, podemos calcular os valores de TF-IDF para cada termo em cada documento multiplicando TF por IDF, resultando na seguinte matriz:

Normalização L2

Estude Mais

A normalização L2, também conhecida como normalização Euclidiana, é um processo aplicado a vetores individuais que ajusta seus valores para garantir que o comprimento do vetor seja 1.

A normalização L2 é realizada dividindo cada termo do vetor pela norma Euclidiana do vetor.

Se o vetor do documento for assim:

d = (w_1, w_2, w_3, ..., w_N)

onde $w_i$ é o peso do termo $i$ ,

então a norma Euclidiana é assim:

\|d\|_2 = \sqrt{w^2_1 + w^2_2 + w^2_3 + ... + w^2_N}

e o vetor normalizado é assim:

d_{norm} = \Bigl(\frac{w_1}{\|d\|_2}, \frac{w_2}{\|d\|_2}, \frac{w_3}{\|d\|_2}, ..., \frac{w_N}{\|d\|_2})

Veja como a normalização L2 funciona para um vetor bidimensional (um documento com 2 termos):

Nota

Agora vamos aplicar a normalização L2 à nossa matriz TF-IDF, que calculamos acima:

A matriz resultante é exatamente a que tivemos como exemplo em um dos capítulos anteriores.

Tudo estava claro?

Obrigado pelo seu feedback!

Seção 3. Capítulo 6