Lernen Tf-Idf | Grundlegende Textmodelle

Verständnis von TF-IDF

Obwohl das Bag-of-Words-Modell einfach und effektiv ist, neigt es dazu, häufige Begriffe zu überbewerten, was die Identifikation von selteneren, aber informativeren Wörtern erschwert. Um dieses Problem zu lösen, wird stattdessen häufig das TF-IDF-Modell verwendet.

Definition

TF-IDF (Termfrequenz-inverse Dokumentfrequenz) ist eine statistische Kennzahl, die widerspiegelt, wie wichtig ein Wort für ein bestimmtes Dokument im Verhältnis zu einem größeren Korpus ist.

Im Gegensatz zu BoW, das auf der reinen Häufigkeit von Begriffen basiert, berücksichtigt TF-IDF sowohl die Häufigkeit eines Begriffs innerhalb eines Dokuments als auch dessen inverse Häufigkeit im gesamten Korpus. Dadurch wird der Einfluss häufiger Begriffe reduziert und seltenere, informativerer hervorgehoben.

Funktionsweise von TF-IDF

Der TF-IDF-Wert für einen Begriff in einem Dokument wird wie folgt berechnet:

\def\tfidf{\operatorname{tf-idf}} \def\tf{\operatorname{tf}} \def\idf{\operatorname{idf}} \tfidf(t, d) = \tf(t, d) \times \idf(t)

wobei:

$t$ der Begriff ist (ein Wort oder N-Gramm);
$d$ das Dokument ist.

Es gibt viele Varianten zur Berechnung der Werte von $\operatorname{tf}$ und $\operatorname{idf}$ . Im Folgenden wird jeweils eine gängige Option betrachtet:

Termfrequenz (TF)

Gibt an, wie häufig ein Begriff in einem Dokument vorkommt und spiegelt dessen relative Bedeutung innerhalb dieses Dokuments wider. Ähnlich wie beim Bag-of-Words-Modell wird häufig eine einfache Zählung verwendet:

\def\tf{\operatorname{tf}} \def\count{\operatorname{count}} \tf(t, d) = \count(t, d)

Inverse Dokumentfrequenz (IDF)

Misst, wie selten ein Begriff im gesamten Korpus ist. Sie kann als natürlicher Logarithmus des Verhältnisses zwischen der Gesamtanzahl der Dokumente und der Anzahl der Dokumente, die den Begriff enthalten, berechnet werden:

\def\idf{\operatorname{idf}} \def\df{\operatorname{df}} \idf(t) = \log\Bigl(\frac{1 + N_{documents}}{1 + \df(t)}\Bigr) + 1

Diese Formel verwendet Glättung (Addition von 1), um eine Division durch Null zu vermeiden und stellt sicher, dass selbst häufige Begriffe einen von Null verschiedenen IDF-Wert erhalten. Dadurch werden häufig vorkommende Begriffe abgewertet und seltene, informativere hervorgehoben.

Ohne die IDF-Komponente würde TF-IDF auf eine einfache Zählung der Begriffe reduziert werden — im Wesentlichen eine Rückkehr zum Bag-of-Words-Modell.

Berechnung von TF-IDF

Im Folgenden wird ein einfaches Beispiel betrachtet:

In diesem Fall liegen nur zwei Dokumente vor und es werden ausschließlich Unigramme (einzelne Wörter) verwendet, sodass die Berechnungen unkompliziert sind. Zunächst werden die Termfrequenzen für jedes Wort in beiden Dokumenten berechnet, gefolgt von den IDF-Werten für die Begriffe "a" und "is".

Hinweis

Da unser Korpus nur zwei Dokumente umfasst, erhält jeder Begriff, der in beiden Dokumenten vorkommt, einen IDF-Wert von 1, während andere Begriffe einen IDF-Wert von ~1.406465 erhalten.

Abschließend können die TF-IDF-Werte für jeden Begriff in jedem Dokument berechnet werden, indem TF mit IDF multipliziert wird. Dies ergibt die folgende Matrix:

L2-Normalisierung

Die resultierenden TF-IDF-Vektoren können sich in ihrer Größe erheblich unterscheiden, insbesondere in großen Korpora, da die Dokumentenlänge variiert. Aus diesem Grund wird häufig die L2-Normalisierung angewendet – sie skaliert alle Vektoren auf eine einheitliche Länge und ermöglicht so einen fairen und objektiven Vergleich von Dokumenten unterschiedlicher Länge.

Mehr erfahren

L2-Normalisierung, auch bekannt als euklidische Normalisierung, ist ein Verfahren, das auf einzelne Vektoren angewendet wird und deren Werte so anpasst, dass die Länge des Vektors 1 beträgt.

Die L2-Normalisierung erfolgt, indem jeder Term im Vektor durch die euklidische Norm des Vektors geteilt wird.

Wenn der Dokumentenvektor wie folgt aussieht:

d = (w_1, w_2, w_3, ..., w_N)

wobei $w_i$ das Gewicht des Terms $i$ ist,

dann sieht die euklidische Norm so aus:

\|d\|_2 = \sqrt{w^2_1 + w^2_2 + w^2_3 + ... + w^2_N}

und der normalisierte Vektor sieht so aus:

d_{norm} = \Bigl(\frac{w_1}{\|d\|_2}, \frac{w_2}{\|d\|_2}, \frac{w_3}{\|d\|_2}, ..., \frac{w_N}{\|d\|_2})

So funktioniert die L2-Normalisierung für einen zweidimensionalen Vektor (ein Dokument mit 2 Begriffen):

Hinweis

Keine Sorge, wenn die Formeln komplex erscheinen. Im Wesentlichen teilen wir jeden TF-IDF-Wert in einem Dokument durch die Länge (oder den Betrag) des TF-IDF-Vektors dieses Dokuments. Dadurch wird der Vektor so skaliert, dass seine Länge 1 beträgt, was konsistente Vergleiche von Vektoren ermöglicht.

Nun wenden wir die L2-Normalisierung auf unsere oben berechnete TF-IDF-Matrix an:

Die resultierende Matrix entspricht genau dem Beispiel, das wir in einem der vorherigen Kapitel betrachtet haben.

War alles klar?

Danke für Ihr Feedback!

Abschnitt 3. Kapitel 6

Fragen Sie AI

Fragen Sie alles oder probieren Sie eine der vorgeschlagenen Fragen, um unser Gespräch zu beginnen

Swipe um das Menü anzuzeigen

Verständnis von TF-IDF

Definition

TF-IDF (Termfrequenz-inverse Dokumentfrequenz) ist eine statistische Kennzahl, die widerspiegelt, wie wichtig ein Wort für ein bestimmtes Dokument im Verhältnis zu einem größeren Korpus ist.

Funktionsweise von TF-IDF

Der TF-IDF-Wert für einen Begriff in einem Dokument wird wie folgt berechnet:

\def\tfidf{\operatorname{tf-idf}} \def\tf{\operatorname{tf}} \def\idf{\operatorname{idf}} \tfidf(t, d) = \tf(t, d) \times \idf(t)

wobei:

$t$ der Begriff ist (ein Wort oder N-Gramm);
$d$ das Dokument ist.

Es gibt viele Varianten zur Berechnung der Werte von $\operatorname{tf}$ und $\operatorname{idf}$ . Im Folgenden wird jeweils eine gängige Option betrachtet:

Termfrequenz (TF)

\def\tf{\operatorname{tf}} \def\count{\operatorname{count}} \tf(t, d) = \count(t, d)

Inverse Dokumentfrequenz (IDF)

\def\idf{\operatorname{idf}} \def\df{\operatorname{df}} \idf(t) = \log\Bigl(\frac{1 + N_{documents}}{1 + \df(t)}\Bigr) + 1

Ohne die IDF-Komponente würde TF-IDF auf eine einfache Zählung der Begriffe reduziert werden — im Wesentlichen eine Rückkehr zum Bag-of-Words-Modell.

Berechnung von TF-IDF

Im Folgenden wird ein einfaches Beispiel betrachtet:

Hinweis

Da unser Korpus nur zwei Dokumente umfasst, erhält jeder Begriff, der in beiden Dokumenten vorkommt, einen IDF-Wert von 1, während andere Begriffe einen IDF-Wert von ~1.406465 erhalten.

Abschließend können die TF-IDF-Werte für jeden Begriff in jedem Dokument berechnet werden, indem TF mit IDF multipliziert wird. Dies ergibt die folgende Matrix:

L2-Normalisierung

Mehr erfahren

L2-Normalisierung, auch bekannt als euklidische Normalisierung, ist ein Verfahren, das auf einzelne Vektoren angewendet wird und deren Werte so anpasst, dass die Länge des Vektors 1 beträgt.

Die L2-Normalisierung erfolgt, indem jeder Term im Vektor durch die euklidische Norm des Vektors geteilt wird.

Wenn der Dokumentenvektor wie folgt aussieht:

d = (w_1, w_2, w_3, ..., w_N)

wobei $w_i$ das Gewicht des Terms $i$ ist,

dann sieht die euklidische Norm so aus:

\|d\|_2 = \sqrt{w^2_1 + w^2_2 + w^2_3 + ... + w^2_N}

und der normalisierte Vektor sieht so aus:

d_{norm} = \Bigl(\frac{w_1}{\|d\|_2}, \frac{w_2}{\|d\|_2}, \frac{w_3}{\|d\|_2}, ..., \frac{w_N}{\|d\|_2})

So funktioniert die L2-Normalisierung für einen zweidimensionalen Vektor (ein Dokument mit 2 Begriffen):

Hinweis

Nun wenden wir die L2-Normalisierung auf unsere oben berechnete TF-IDF-Matrix an:

Die resultierende Matrix entspricht genau dem Beispiel, das wir in einem der vorherigen Kapitel betrachtet haben.

War alles klar?

Danke für Ihr Feedback!

Abschnitt 3. Kapitel 6