ONNX
InfrastrukturOffenes Austauschformat für ML-Modelle – ermöglicht Framework-unabhängigen Export und hardware-optimierte Inferenz via ONNX Runtime.
Zweck und Aufbau
ONNX (Open Neural Network Exchange) definiert ein plattformneutrales Dateiformat zur Beschreibung von ML-Modellen. Ein in PyTorch oder TensorFlow trainiertes Modell kann in das ONNX-Format exportiert werden und ist danach von jeder kompatiblen Laufzeitumgebung ausführbar – unabhängig vom ursprünglichen Framework.
Das Format beschreibt das Rechengraphen-Modell (Operatoren, Gewichte, Topologie) in einem protobuf-Schema. Die zugehörige ONNX Runtime (ORT) von Microsoft optimiert die Ausführung automatisch für die Zielhardware.
Einsatzszenarien und Hardware-Unterstützung
ONNX Runtime unterstützt Execution Provider für CPU, CUDA, TensorRT, DirectML, CoreML und OpenVINO. Modelle lassen sich so ohne Neutraining auf CPUs, dedizierten AI-Beschleunigern oder Edge-Geräten deployen. Quantisierung (INT8, FP16) und Graph-Optimierungen werden direkt in ORT angewendet.
- Export aus PyTorch: torch.onnx.export() in wenigen Zeilen
- Signifikante Latenzreduktion durch Graph-Fusions und Kernel-Optimierungen
- Breite Nutzung in Produktionsumgebungen: HuggingFace Optimum setzt auf ONNX Runtime
- Unterstützung für Transformer-Modelle, CNNs und klassische ML-Algorithmen (scikit-learn via ONNX-ML)
Merksatz
ONNX ist der gemeinsame Nenner zwischen ML-Frameworks und Deployment-Hardware – einmal exportiert, läuft das Modell dort, wo es gebraucht wird.
Relevanz für den Mittelstand
Für Unternehmen, die ML-Modelle in bestehende Softwarelandschaften integrieren müssen, schafft ONNX Herstellerunabhängigkeit. Modelle können auf günstiger CPU-Hardware via ONNX Runtime mit akzeptabler Latenz betrieben werden – ohne teure GPU-Infrastruktur. Besonders relevant ist das Format für Edge-Deployments und für Szenarien, in denen Daten das Rechenzentrum nicht verlassen dürfen.
← Zurück zum Glossar