Corpus

Textsammlung

Grosse Textsammlung, die zum Training von Sprachmodellen verwendet wird.

Corpus: Die Wissensbasis der KI

Ein Corpus (Plural: Corpora) ist eine strukturierte Sammlung von Texten, die fuer Training oder Analyse verwendet wird.

Bekannte Corpora

  • Common Crawl: Milliarden Webseiten
  • Wikipedia: Enzyklopaedisches Wissen
  • The Pile: 800GB diverse Texte
  • GitHub: Code und Dokumentation

Fuer Unternehmen

Interne Dokumente, E-Mails, Wikis bilden Ihren eigenen Corpus. Mit RAG oder Fine-Tuning wird er nutzbar.

← Zurueck zum Glossar