Als wichtiger Meilenstein für die KI-Infrastruktur hat Zyphra erfolgreich ZAYA1 trainiert, ein groß angelegtes Mixture-of-Experts (MoE)-Grundlagenmodell, wobei ausschließlich die Full-Stack-Plattform von AMD zum Einsatz kam – darunter Instinct MI300X-GPUs, AMD Pensando Pollara-Netzwerke und der offene Software-Stack ROCm.
Diese Leistung zeigt, dass das Hardware- und Software-Ökosystem von AMD nun nicht nur kleine bis mittlere Modelle unterstützen kann, sondern auch KI-Trainings im Frontier-Maßstab. In diesem Artikel untersuchen wir die technischen Innovationen, die Auswirkungen auf die Leistung und die strategische Bedeutung von ZAYA1 und warum es für die Zukunft der KI-Infrastruktur von Bedeutung ist.
Warum ZAYA1 so wichtig ist
Erstes groß angelegtes MoE-Modell auf einer AMD-Plattform
ZAYA1 ist das erste groß angelegte MoE-Grundlagenmodell, das vollständig auf AMD-Hardware trainiert wurde. Im Gegensatz zu vielen KI-Modellen, die auf NVIDIA-GPUs basieren, entschied sich Zyphra für einen „reinen AMD”-Stack – und bestätigte damit die Eignung von AMD für das Training anspruchsvoller Großmodelle.
Hohe Effizienz durch MoE-Architektur
Mit insgesamt 8,3 Milliarden Parametern, von denen jedoch zu jedem Zeitpunkt nur 760 Millionen aktiv sind, verwendet ZAYA1 einen spärlichen Mixture-of-Experts-Ansatz. Dieses Design steigert die Recheneffizienz, indem nur eine kleine Teilmenge von „Experten”-Subnetzwerken aktiviert wird, wodurch die Rechenkosten gesenkt werden, ohne die Modellkapazität zu beeinträchtigen.
Co-Design von Hardware und Modell
Zyphra hat ZAYA1 gemeinsam mit AMD entwickelt, um die Leistung auf der verwendeten Hardware zu optimieren. Dazu gehören benutzerdefinierte Kernel, Parallelisierungsstrategien und eine auf die MI300X-GPUs und die Netzwerkstruktur von AMD zugeschnittene Modellgröße.
Hoher Durchsatz und Zugänglichkeit
Der für ZAYA1 in Zusammenarbeit mit IBM Cloud aufgebaute Trainingscluster lieferte eine Rechenleistung von über 750 PFLOPs. Dies zeigt, dass die AMD-basierte Infrastruktur so skaliert werden kann, dass sie mit traditionellen KI-Plattformen mithalten oder diese sogar übertreffen kann.
Wettbewerbsfähige Leistung
Benchmarking-Tests zeigen, dass ZAYA1-base (insgesamt 8,3 Milliarden / 760 Millionen aktiv) mit anderen führenden offenen Modellen gleichauf liegt und diese in einigen Fällen sogar übertrifft. Zyphra berichtet, dass ZAYA1 in Bezug auf Benchmarks für logisches Denken, Mathematik und Codierung mit Modellen wie Qwen3-4B (Alibaba) und Gemma3-12B (Google) gleichauf liegt oder diese sogar übertrifft. Es übertrifft auch Llama-3-8B (Meta) und OLMoE.
Technische Innovationen und Architektur von ZAYA1
Gemeinsam entwickelt für AMDs MI300X
- Speicher Vorteil: Die im Trainingscluster verwendeten AMD Instinct MI300X-GPUs verfügen jeweils über 192 GB High-Bandwidth-Memory (HBM). Dank dieser hohen Kapazität konnte Zyphra komplexe Expert-Sharding- oder Tensor-Sharding-Strategien reduzieren oder vermeiden und so das verteilte Training vereinfachen.
- Hochgeschwindigkeitsnetzwerk: Jeder Knoten enthält AMD Pensando Pollara 400-Gbit/s-Netzwerkhardware, die eine reine Rail-Topologie-Kommunikation ermöglicht. Dadurch wird sichergestellt, dass der Gradientenaustausch und die kollektiven Operationen zwischen den GPUs auch bei großem Umfang effizient bleiben.
- ROCm-Software-Stack: Das Training wurde mit dem ROCm-Stack (Radeon Open Compute) von AMD durchgeführt, der sowohl für den Rechen- als auch für den Speicherdurchsatz optimiert ist.
Verbesserungen der Modellarchitektur und Effizienz
Zyphra hat in ZAYA1 mehrere architektonische Merkmale eingeführt, um die zugrunde liegende Hardware effizient zu nutzen:
Erweitertes Routing
- ZAYA1 verwendet einen Router, der entscheidet, welche „Experten“-Subnetze aktiviert werden sollen. Das Design von Zyphra umfasst einen MLP-basierten Router (anstelle eines einfachen linearen Gates), der eine umfassendere Spezialisierung der Experten ermöglicht.
Komprimierte Faltungsaufmerksamkeit (CCA)
- CCA reduziert den Speicherverbrauch durch Komprimierung von KV-Caches (Key-Value-Caches) in Attention-Layern. Laut Zyphra reduziert diese Optimierung den Speicherverbrauch um ~32 % und erhöht gleichzeitig den Durchsatz bei langen Kontexten um ~18 %.
Leichte Restskalierung
- Um ein Gleichgewicht zwischen Trainingsstabilität und Effizienz herzustellen, wendet Zyphra Restskalierungstechniken an, die den Overhead reduzieren und gleichzeitig die Fähigkeit zur effektiven Optimierung erhalten.
Parallelismus-Strategie
- Angesichts des großen Speichers pro GPU verwendete Zyphra Datenparallelität mit ZeRO-1 (einem Parameter-Sharding-Optimierer) über die Knoten hinweg anstelle von komplizierteren Parallelstrategien.
Robuste Trainingsinfrastruktur
- Fehlertoleranz und Checkpointing: Der technische Bericht von Zyphra beschreibt fehlertolerante Trainingspipelines und effiziente Checkpointing-Strategien, die für lang andauernde Trainings mit großen Modellen geeignet sind.
- Mikrobenchmarking: Das Team führte detaillierte Netzwerk- und Rechenbenchmarks durch, darunter kollektive Kommunikation (All-Reduce, Reduce-Scatter) auf der Pollara-Verbindung von AMD.
Leistungs- und Benchmark-Vergleiche
Die Leistungsbewertung von Zyphra zeigt, dass ZAYA1 nicht nur ein Proof of Concept ist, sondern auch in großem Maßstab wettbewerbsfähig ist:
- In Bezug auf Logik, Mathematik und Codierungs-Benchmarks schneidet ZAYA1-base ähnlich gut oder besser ab als offene Modelle wie Qwen3-4B und Gemma3-12B.
- Im Vergleich zu Llama-3-8B und OLMoE berichtet Zyphra, dass ZAYA1 bei mehreren Aufgaben überlegen ist.
- Die Trainingseffizienz profitiert von einer 10-fach schnelleren Speicherdauer der Modelle dank der optimierten verteilten E/A-Schichten von AMD.
Strategische Auswirkungen: Was dies für KI- und Hardware-Ökosysteme bedeutet
AMD als ernstzunehmende KI-Trainingsplattform validieren
Der Erfolg von ZAYA1 stellt die Dominanz von NVIDIA im Bereich des groß angelegten KI-Trainings infrage. Die Tatsache, dass ein bahnbrechendes MoE-Modell vollständig auf AMD-Hardware trainiert werden kann, zeigt, dass die Rechen-, Speicher- und Netzwerkstack von AMD für große KI-Workloads ausgereift und „produktionsreif“ ist.
Effizienz durch Co-Design
Durch die gemeinsame Entwicklung des Modells und der Infrastruktur erzielten Zyphra und AMD erhebliche Effizienzsteigerungen – die gemeinsame Optimierung wird für das Hochleistungs-KI-Training unverzichtbar. Dieser Ansatz könnte sich insbesondere für Unternehmen, die Kosten senken und die Leistung maximieren möchten, zunehmend durchsetzen.
Vorteil einer offenen Plattform
Das Training auf einem vollständig offenen Stack (Hardware + Software) bietet Transparenz und Flexibilität. Unternehmen, die eine Bindung an einen bestimmten Anbieter vermeiden möchten oder auf offene Ökosysteme setzen, können AMD nun als praktikable Alternative für groß angelegte KI-Projekte in Betracht ziehen.
Hyperscaler und Cloud-Einführung
Der Cluster für ZAYA1 wurde mit IBM Cloud aufgebaut, was zeigt, dass große Cloud-Anbieter bereit sind, modernstes Training auf AMD-Basis zu unterstützen. Dies kann den Weg für eine breitere Einführung von AMD in der Cloud-KI-Infrastruktur ebnen.
Skalierbare Zukunftsmodelle
ZAYA1 ist nur der Anfang. Mit einem bewährten AMD-Stack auf Produktionsniveau könnten mehr Forscher und Unternehmen MoE-Architekturen, Langzeitkontextmodelle und effizientes Routing in zukünftigen Modellen untersuchen, die auf AMD-Infrastruktur trainiert wurden.
Herausforderungen und Überlegungen
ZAYA1 ist zwar ein starkes Argument, aber es gibt wichtige Herausforderungen und Vorbehalte zu beachten:
- Hardwarekosten und Verfügbarkeit: Der Aufbau eines Clusters mit 128 Knoten, GPUs mit hoher Bandbreite und maßgeschneiderten Netzwerken ist keine triviale Angelegenheit. Nicht jedes Unternehmen kann diese Größenordnung ohne Weiteres nachbilden.
- Komplexität der Software: Um die Hardware voll auszuschöpfen, musste Zyphra maßgeschneiderte Kernel und Optimierungen implementieren. Unternehmen benötigen möglicherweise umfangreiches technisches Fachwissen, um eine ähnliche Leistung zu erzielen.
- Risiken einer spezialisierten Architektur: MoE-Modelle können in der Verwaltung, Bereitstellung und Feinabstimmung komplexer sein als dichte Modelle. Die Leistungssteigerungen können mit einer erhöhten Systemkomplexität einhergehen.
- Verallgemeinerung: Während ZAYA1 bei Benchmarks gute Ergebnisse erzielt, erfordert die Einführung in der Praxis eine robuste Feinabstimmung, Sicherheitsvalidierung und Bereitstellungstests.
- Ecosystem Lock-in: Obwohl der Stack von AMD offen ist, könnte die gemeinsame Entwicklung mit spezifischer Hardware zu einer gewissen Plattformabhängigkeit führen, sofern die Portabilität nicht sorgfältig gewahrt bleibt.
Warum dies für die Zukunft der KI wichtig ist
ZAYA1 ist nicht nur ein technischer Meilenstein – es ist ein bedeutendes Signal in der Entwicklung der KI-Infrastruktur:
- Es bestätigt, dass MoE-Architekturen nicht nur effizient, sondern auch praktisch für das Training auf Nicht-NVIDIA-Hardware sind.
- Es unterstreicht die Bedeutung des gemeinsamen Designs von Hardware und Software beim Aufbau von KI-Systemen der nächsten Generation.
- Es demokratisiert den Zugang zum Training großer Modelle, indem es die Palette der geeigneten Hardware erweitert.
- Es ermutigt Cloud-Anbieter, vielfältige KI-Computing-Ökosysteme zu unterstützen und damit die Abhängigkeit von einem einzigen Halbleiterhersteller zu verringern.
Schlussfolgerung
ZAYA1 – das Mixture-of-Experts-Grundlagenmodell von Zyphra – stellt nicht nur für Zyphra, sondern für das gesamte KI-Hardware-Ökosystem einen Meilenstein dar. Indem sie bewiesen haben, dass die gesamte Produktpalette von AMD (Rechenleistung, Netzwerke, Software) hochleistungsfähiges, groß angelegtes KI-Training unterstützen kann, haben Zyphra und AMD gemeinsam ein neues Kapitel in der Vielfalt der KI-Infrastruktur aufgeschlagen.
Dieser Meilenstein unterstreicht den Wert von Hardware-Modell-Co-Design, Architektureffizienz und offenen Plattformen. Da sich die KI weiterentwickelt, werden Durchbrüche wie ZAYA1 wahrscheinlich zu mehr Wettbewerb, Innovation und Flexibilität der Infrastruktur führen – und letztendlich den Zugang zu KI der nächsten Generation für ein breiteres Spektrum von Organisationen erweitern.
Für Unternehmen, Forscher und Cloud-Anbieter ist ZAYA1 mehr als nur eine technische Kuriosität: Es ist ein überzeugender Beweis dafür, dass ein groß angelegtes, effizientes KI-Training auf AMD-Hardware nicht nur möglich ist, sondern bereits Realität ist.
FAQs
Was ist ZAYA1?
ZAYA1 ist ein von Zyphra entwickeltes groß angelegtes Mixture-of-Experts (MoE)-Grundlagenmodell, das vollständig auf AMD-Hardware (MI300X-GPUs) und -Netzwerken trainiert wurde.
Warum ist das Training von ZAYA1 auf AMD-Hardware so wichtig?
Es zeigt, dass die GPU (Instinct MI300X), das Netzwerk (Pensando Pollara) und die Software (ROCm) von AMD ausgereift genug für KI-Training im Frontier-Maßstab sind und eine praktikable Alternative zu anderen Plattformen darstellen.
Was ist ein Mixture-of-Experts (MoE)-Modell?
Ein MoE-Modell aktiviert für jede Eingabe nur eine Teilmenge seiner „Experten” (Subnetzwerke), wodurch eine große Parameterkapazität bei geringerer Rechenleistung pro Inferenz- oder Trainingsschritt ermöglicht und somit die Effizienz verbessert wird.
Wie groß ist ZAYA1?
ZAYA1 hat insgesamt 8,3 Milliarden Parameter, aber nur 760 Millionen Parameter sind während der Inferenz/des Trainings gleichzeitig aktiv.
Welche Leistungsbenchmarks erreicht ZAYA1?
Laut Zyphra entspricht ZAYA1-base Modellen wie Qwen3-4B und Gemma3-12B in Bezug auf Schlussfolgerungen, Mathematik und Codierungsaufgaben oder übertrifft diese sogar und übertrifft Llama-3-8B und OLMoE.
Welche Infrastruktur wurde zum Trainieren von ZAYA1 verwendet?
Der Trainingscluster bestand aus 128 Knoten × 8 AMD MI300X-GPUs, die über ein AMD Pollara 400-Gbit/s-Netzwerk verbunden waren und von der Hochleistungs-Fabric von IBM Cloud unterstützt wurden.
Welche architektonischen Innovationen hat Zyphra in ZAYA1 eingeführt?
Zu den wichtigsten Innovationen gehören Compressed Convolutional Attention (CCA) für Speichereffizienz, ein MLP-basierter Expert Router und leichtgewichtiges Residual Scaling für Trainingsstabilität.