Checkpoint

Training

Gespeicherter Zustand eines Modells während des Trainings. Ermöglicht Wiederaufnahme bei Abbruch oder Zurückrollen bei Problemen.

Checkpoints: Training sichern

Ein Checkpoint speichert den kompletten Modellzustand während des Trainings: Alle Gewichte, Optimizer-Zustand, Fortschritt.

Warum wichtig?

  • Absicherung bei Abbrüchen
  • Verschiedene Trainingsstadien vergleichen
  • Basis für Fine-Tuning

Speicherbedarf

Ein Checkpoint von Llama 70B braucht ~140GB. Checkpoint-Management (wann speichern, wann löschen) ist wichtig.

← Zurück zum Glossar