Word Embedding

Embedding

Vektorraepraesentationen von Woertern. Aehnliche Woerter haben aehnliche Vektoren.

Was ist Word Embedding?

Word Embeddings sind numerische Repräsentationen von Wörtern als Vektoren (Listen von Zahlen) in einem mehrdimensionalen Raum. Der entscheidende Punkt: Wörter mit ähnlicher Bedeutung erhalten ähnliche Vektoren und liegen im Vektorraum nahe beieinander. So haben die Vektoren für „König" und „Königin" eine hohe Ähnlichkeit, während „König" und „Apfel" weit voneinander entfernt sind. Word Embeddings sind die Grundlage dafür, dass Computer Sprache mathematisch verarbeiten können.

Wie funktionieren Word Embeddings?

Bekannte Verfahren wie Word2Vec (Google, 2013), GloVe (Stanford) und FastText (Facebook) lernen Embeddings aus großen Textmengen. Die Grundidee: Ein Wort wird durch seinen Kontext definiert. Wörter, die in ähnlichen Kontexten vorkommen, erhalten ähnliche Vektoren. Word2Vec zum Beispiel trainiert ein einfaches neuronales Netz, das vorhersagt, welche Wörter in der Umgebung eines gegebenen Wortes auftreten. Die dabei gelernten internen Gewichte werden als Embedding-Vektoren verwendet.

Ein typischer Embedding-Vektor hat 100 bis 768 Dimensionen. Die einzelnen Dimensionen kodieren keine direkt benennbaren Eigenschaften, aber in der Gesamtheit fangen sie semantische Beziehungen ein. Das bekannteste Beispiel: König - Mann + Frau = Königin. Moderne Sprachmodelle wie BERT oder GPT erzeugen kontextabhängige Embeddings, bei denen das Wort „Bank" je nach Kontext (Sitzgelegenheit vs. Geldinstitut) unterschiedliche Vektoren erhält. Dies war ein wesentlicher Fortschritt gegenüber statischen Embeddings.

Warum sind Word Embeddings wichtig?

Word Embeddings sind eine fundamentale Technologie hinter fast allen modernen NLP-Anwendungen. Sie ermöglichen semantische Suche (Finden ähnlicher Dokumente nach Bedeutung statt Stichwort), Sentiment-Analyse, Textklassifikation und Empfehlungssysteme. Für Unternehmen sind Embeddings besonders relevant bei der Implementierung von Retrieval-Augmented Generation (RAG), wo Unternehmensdokumente als Embeddings gespeichert und bei Bedarf semantisch durchsucht werden. Die Qualität der Embeddings bestimmt direkt die Qualität der Suchergebnisse.

Verwandte Begriffe

Token · Transformer · Vektordatenbank · RAG · Sequence-to-Sequence

← Zurück zum Glossar