Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Lernen Vektorraum-Modelle | Grundlegende Textmodelle
Einführung in NLP

bookVektorraum-Modelle

Die Notwendigkeit numerischer Repräsentation

Computer können Text nicht so interpretieren wie Menschen. Während wir Bedeutung aus Sprache durch Kontext, Kultur und Erfahrung ableiten, sehen Computer nichts anderes als Zeichenfolgen.

Um Text für Maschinen zugänglich zu machen, müssen wir ihn in ihre Muttersprache übersetzen: Zahlen. Die Darstellung von Text durch Vektoren und Matrizen ermöglicht es mathematischen und statistischen Modellen, Muster, Beziehungen und Erkenntnisse zu entdecken, die im Rohtext verborgen bleiben würden.

Verständnis von Vektorraum-Modellen

Glücklicherweise existieren bereits effektive Lösungen, um Text in numerische Form zu überführen. Einer der am weitesten verbreiteten Ansätze ist die Verwendung von Vektorraum-Modellen.

Note
Definition

Vektorraum-Modell (VSM) ist ein mathematisches Modell, das Textdokumente, Wörter oder andere Elemente als Vektoren in einem mehrdimensionalen Raum darstellt.

Es gibt viele Möglichkeiten, solche Vektorräume für Textdokumente zu konstruieren. Ein einfacher Ansatz ist die Verwendung des gesamten Korpus-Vokabulars, wobei jeder Dimension des Raums ein eindeutiger Begriff zugeordnet wird.

Note
Definition

Vokabular ist die vollständige Menge aller eindeutigen Begriffe, die in einem gegebenen Korpus vorkommen.

Sei das Korpus-Vokabular als VV und die Menge der Dokumente als DD bezeichnet. Dann kann jedes Dokument diDd_i \in D als Vektor in RN\R^N dargestellt werden:

di=(w1,i,w2,i,...,wN,i)d_i = (w_{1,i}, w_{2,i}, ..., w_{N,i})

wobei:

  • N=VN = |V| die Gesamtanzahl der eindeutigen Begriffe im Vokabular ist;
  • wj,iw_{j,i} das Gewicht oder die Bedeutung des Begriffs WjVW_j \in V im Dokument did_i angibt.

Hier ist ein einfaches Beispiel mit nur 2 Dokumenten und 2 eindeutigen Begriffen, visualisiert in einem 2D-Vektorraum:

Mit diesen Vektorrepräsentationen lässt sich ein Ähnlichkeitswert zwischen Dokumenten berechnen, indem der Winkel zwischen ihren Vektoren gemessen wird, typischerweise unter Verwendung der Kosinus-Ähnlichkeit.

Wörter als Vektoren

Das Konzept der Vektorraummodelle (VSM) lässt sich auf einzelne Wortrepräsentationen durch die Technik der Wort-Embeddings erweitern. Wort-Embeddings basieren auf einem ähnlichen mathematischen Prinzip, konzentrieren sich jedoch darauf, einzelne Wörter als Vektoren darzustellen, anstatt ganze Dokumente. Die Dimensionen dieser Vektoren erfassen latente semantische Merkmale, die nicht direkt interpretierbar sind.

Hier ein Beispiel mit zweidimensionalen Embeddings für drei Wörter:

Wie in der Abbildung dargestellt, liegen die Vektoren für „woman“ und „queen“ sowie für „queen“ und „king“ nahe beieinander, was auf eine starke semantische Ähnlichkeit hinweist. Im Gegensatz dazu deutet der größere Winkel zwischen „woman“ und „king“ auf einen größeren semantischen Unterschied hin.

Note
Hinweis

Machen Sie sich vorerst keine Gedanken über Wort-Embeddings; wir werden sie später besprechen.

Anwendungen von Vektorraum-Modellen

Vektorraum-Modelle werden in einer Vielzahl von NLP-Aufgaben eingesetzt:

  • Semantische Ähnlichkeit: Berechnung der Ähnlichkeit zwischen Textdokumenten oder Wörtern auf Basis ihrer Vektorrepräsentationen;

  • Informationsabruf: Verbesserung von Suchmaschinen und Empfehlungssystemen, um Inhalte zu finden, die für eine Benutzeranfrage relevant sind;

  • Textklassifikation und -clustering: Automatische Kategorisierung von Dokumenten in vordefinierte Klassen oder Gruppierung ähnlicher Dokumente;

  • Sprachverstehen: Ermöglichung einer tieferen linguistischen Analyse, die Anwendungen wie Sentiment-Analyse, Themenmodellierung und mehr unterstützt.

question mark

Wofür werden Vektorraum-Modelle verwendet?

Select the correct answer

War alles klar?

Wie können wir es verbessern?

Danke für Ihr Feedback!

Abschnitt 3. Kapitel 1

Fragen Sie AI

expand

Fragen Sie AI

ChatGPT

Fragen Sie alles oder probieren Sie eine der vorgeschlagenen Fragen, um unser Gespräch zu beginnen

Suggested prompts:

Can you explain how cosine similarity works in more detail?

What are some common methods for creating word embeddings?

Can you give examples of real-world applications that use vector space models?

Awesome!

Completion rate improved to 3.45

bookVektorraum-Modelle

Swipe um das Menü anzuzeigen

Die Notwendigkeit numerischer Repräsentation

Computer können Text nicht so interpretieren wie Menschen. Während wir Bedeutung aus Sprache durch Kontext, Kultur und Erfahrung ableiten, sehen Computer nichts anderes als Zeichenfolgen.

Um Text für Maschinen zugänglich zu machen, müssen wir ihn in ihre Muttersprache übersetzen: Zahlen. Die Darstellung von Text durch Vektoren und Matrizen ermöglicht es mathematischen und statistischen Modellen, Muster, Beziehungen und Erkenntnisse zu entdecken, die im Rohtext verborgen bleiben würden.

Verständnis von Vektorraum-Modellen

Glücklicherweise existieren bereits effektive Lösungen, um Text in numerische Form zu überführen. Einer der am weitesten verbreiteten Ansätze ist die Verwendung von Vektorraum-Modellen.

Note
Definition

Vektorraum-Modell (VSM) ist ein mathematisches Modell, das Textdokumente, Wörter oder andere Elemente als Vektoren in einem mehrdimensionalen Raum darstellt.

Es gibt viele Möglichkeiten, solche Vektorräume für Textdokumente zu konstruieren. Ein einfacher Ansatz ist die Verwendung des gesamten Korpus-Vokabulars, wobei jeder Dimension des Raums ein eindeutiger Begriff zugeordnet wird.

Note
Definition

Vokabular ist die vollständige Menge aller eindeutigen Begriffe, die in einem gegebenen Korpus vorkommen.

Sei das Korpus-Vokabular als VV und die Menge der Dokumente als DD bezeichnet. Dann kann jedes Dokument diDd_i \in D als Vektor in RN\R^N dargestellt werden:

di=(w1,i,w2,i,...,wN,i)d_i = (w_{1,i}, w_{2,i}, ..., w_{N,i})

wobei:

  • N=VN = |V| die Gesamtanzahl der eindeutigen Begriffe im Vokabular ist;
  • wj,iw_{j,i} das Gewicht oder die Bedeutung des Begriffs WjVW_j \in V im Dokument did_i angibt.

Hier ist ein einfaches Beispiel mit nur 2 Dokumenten und 2 eindeutigen Begriffen, visualisiert in einem 2D-Vektorraum:

Mit diesen Vektorrepräsentationen lässt sich ein Ähnlichkeitswert zwischen Dokumenten berechnen, indem der Winkel zwischen ihren Vektoren gemessen wird, typischerweise unter Verwendung der Kosinus-Ähnlichkeit.

Wörter als Vektoren

Das Konzept der Vektorraummodelle (VSM) lässt sich auf einzelne Wortrepräsentationen durch die Technik der Wort-Embeddings erweitern. Wort-Embeddings basieren auf einem ähnlichen mathematischen Prinzip, konzentrieren sich jedoch darauf, einzelne Wörter als Vektoren darzustellen, anstatt ganze Dokumente. Die Dimensionen dieser Vektoren erfassen latente semantische Merkmale, die nicht direkt interpretierbar sind.

Hier ein Beispiel mit zweidimensionalen Embeddings für drei Wörter:

Wie in der Abbildung dargestellt, liegen die Vektoren für „woman“ und „queen“ sowie für „queen“ und „king“ nahe beieinander, was auf eine starke semantische Ähnlichkeit hinweist. Im Gegensatz dazu deutet der größere Winkel zwischen „woman“ und „king“ auf einen größeren semantischen Unterschied hin.

Note
Hinweis

Machen Sie sich vorerst keine Gedanken über Wort-Embeddings; wir werden sie später besprechen.

Anwendungen von Vektorraum-Modellen

Vektorraum-Modelle werden in einer Vielzahl von NLP-Aufgaben eingesetzt:

  • Semantische Ähnlichkeit: Berechnung der Ähnlichkeit zwischen Textdokumenten oder Wörtern auf Basis ihrer Vektorrepräsentationen;

  • Informationsabruf: Verbesserung von Suchmaschinen und Empfehlungssystemen, um Inhalte zu finden, die für eine Benutzeranfrage relevant sind;

  • Textklassifikation und -clustering: Automatische Kategorisierung von Dokumenten in vordefinierte Klassen oder Gruppierung ähnlicher Dokumente;

  • Sprachverstehen: Ermöglichung einer tieferen linguistischen Analyse, die Anwendungen wie Sentiment-Analyse, Themenmodellierung und mehr unterstützt.

question mark

Wofür werden Vektorraum-Modelle verwendet?

Select the correct answer

War alles klar?

Wie können wir es verbessern?

Danke für Ihr Feedback!

Abschnitt 3. Kapitel 1
some-alt