Model Merging
TrainingTechnik, bei der Gewichte verschiedener Modellvarianten gemittelt oder interpoliert werden, um Fähigkeiten zu kombinieren.
Was ist Model Merging?
Model Merging bezeichnet Verfahren, bei denen die Gewichte mehrerer Sprachmodelle (meist Varianten des gleichen Basismodells) arithmetisch kombiniert werden. Das einfachste Verfahren ist das gewichtete Mitteln der Parameter (Model Soups, Wortman Novak et al. 2022). Komplexere Methoden wie TIES-Merging oder DARE berücksichtigen, welche Gewichtsveränderungen durch Fine-Tuning entstanden sind, und kombinieren diese selektiv.
Das Ergebnis ist ein einzelnes Modell, das Fähigkeiten aus mehreren Quellen vereint – ohne weiteres Training und ohne die Trainingsdaten der Ausgangsmodelle zu benötigen.
Merging-Methoden im Überblick
Die Forschung hat 2023–2024 zahlreiche Merging-Strategien hervorgebracht. Plattformen wie Hugging Face bieten mit mergekit ein quelloffenes Werkzeug, das die wichtigsten Methoden implementiert.
- Linear Merge (SLERP): Sphärische Interpolation zwischen zwei Modellen entlang der Gewichts-Sphäre
- Task Arithmetic: Aufgabenspezifische Gewichtsvektoren werden addiert oder subtrahiert
- TIES-Merging: Berücksichtigt Konflikte zwischen Gewichtsänderungen, löscht kleine Deltas
- DARE: Regularisierung durch zufälliges Nullsetzen von Delta-Gewichten vor dem Mergen
Praxisbeispiel
Modell A wurde auf deutschem Recht fine-getunet, Modell B auf technischer Dokumentation. Ein Merge beider Modelle kann eine Ausgangsbasis für einen Rechts-Technik-Assistenten liefern – ohne einen einzigen Trainingsschritt.
Relevanz für den Mittelstand
Model Merging ist ressourcenschonend: kein GPU-Training, kein Datensatz nötig – nur zwei fertige Modelle. Für KMU, die open-weight Modelle nutzen, eröffnet das die Möglichkeit, spezialisierte Community-Modelle (etwa für Buchhaltungssprache oder technisches Englisch) mit einem internen Fine-Tune zu kombinieren, um einen stärker an die eigenen Bedürfnisse angepassten Assistenten zu erhalten.
← Zurück zum Glossar