Checkpoint
TrainingGespeicherter Zustand eines Modells während des Trainings. Ermöglicht Wiederaufnahme bei Abbruch oder Zurückrollen bei Problemen.
Checkpoints: Training sichern
Ein Checkpoint speichert den kompletten Modellzustand während des Trainings: Alle Gewichte, Optimizer-Zustand, Fortschritt.
Warum wichtig?
- Absicherung bei Abbrüchen
- Verschiedene Trainingsstadien vergleichen
- Basis für Fine-Tuning
Speicherbedarf
Ein Checkpoint von Llama 70B braucht ~140GB. Checkpoint-Management (wann speichern, wann löschen) ist wichtig.
← Zurück zum Glossar