Corpus
TextsammlungGrosse Textsammlung, die zum Training von Sprachmodellen verwendet wird.
Corpus: Die Wissensbasis der KI
Ein Corpus (Plural: Corpora) ist eine strukturierte Sammlung von Texten, die fuer Training oder Analyse verwendet wird.
Bekannte Corpora
- Common Crawl: Milliarden Webseiten
- Wikipedia: Enzyklopaedisches Wissen
- The Pile: 800GB diverse Texte
- GitHub: Code und Dokumentation
Fuer Unternehmen
Interne Dokumente, E-Mails, Wikis bilden Ihren eigenen Corpus. Mit RAG oder Fine-Tuning wird er nutzbar.
← Zurueck zum Glossar