Die Welt der großen Sprachmodelle (LLMs) wird seit langem von „Black-Box“-Modellen dominiert: Systemen, deren Gewichte, Trainingsdaten, Architektur und Funktionsweise verborgen bleiben. Im Gegensatz dazu ist Apertus ein mutiger Gegenvorschlag: ein vollständig offenes, transparentes und mehrsprachiges LLM, das von Schweizer Institutionen veröffentlicht wurde. Apertus wurde am 2. September 2025 eingeführt und soll ein grundlegendes Modell sein, das auf Vertrauen, Überprüfbarkeit, sprachlicher Vielfalt und europäischer Souveränität basiert. Aber wie gut hält es diese Versprechen ein – und wo gibt es Defizite?
In diesem Artikel werden wir folgende Themen behandeln:
- Was Apertus ist und wie es entwickelt wurde
- Seine architektonischen und technischen Innovationen
- Seine Transparenz und Compliance-Sicherheitsvorkehrungen
- Anwendungsfälle und Leistung in der Praxis
- Stärken, Einschränkungen und Herausforderungen bei der Einführung
- Wie Sie Apertus selbst nutzen können
- Was Apertus für die Zukunft einer offenen, regulierungskonformen KI bedeutet
Was ist Apertus?
Apertus ist ein großes Sprachmodell, das gemeinsam von der EPFL, der ETH Zürich und dem Schweizerischen Nationalen Supercomputing Centre (CSCS) entwickelt wurde. Der Name „Apertus” bedeutet auf Lateinisch „offen” und spiegelt das zentrale Designprinzip des Modells wider: vollständige Offenheit in Bezug auf Architektur, Gewichte, Trainingsdaten und Trainingsrezepte.
Es wird in zwei Versionen angeboten: Apertus-8B (8 Milliarden Parameter) für leichtere oder experimentelle Anwendungen und Apertus-70B (70 Milliarden Parameter) für anspruchsvollere Aufgaben.
Zunächst, the team trained it with 15 trillion tokens coming from more than a thousand languages-from some sources, about 1,800 languages-from which about 40% were non-English contents.
Eines der erklärten Ziele ist die Einhaltung der neuen europäischen Vorschriften (z. B. EU-KI-Gesetz) und Datenschutzgesetze, indem ausschließlich öffentliche Daten verwendet, Opt-out-Signale respektiert, personenbezogene Daten entfernt und Transparenz hinsichtlich der Herkunft gewährleistet werden.
Swisscom und die Swiss AI Initiative haben angekündigt, dass Geschäftskunden über eine souveräne KI-Plattform in der Schweiz auf Apertus zugreifen können und dass eine öffentliche KI-Inferenzschnittstelle den globalen Zugriff ermöglichen wird.
Zusammenfassend lässt sich sagen: Apertus strebt ein grundlegendes offenes Modell an, das nicht nur leistungsfähig ist, sondern auch Transparenz, mehrsprachige Inklusion und Regulierungsbereitschaft vorlebt.
Architektonisches Design und Innovationen
Was steckt hinter Apertus? Obwohl es wie viele andere LLMs auf einem Decoder-only-Transformer-Modell basiert, weist es doch einige innovative Merkmale auf.
Decoder-Transformer-Kern und Kontextlänge
Apertus verwendet eine Decoder-only-Transformer-Architektur (d. h. den autoregressiven Stil), die mit GPT- und LLaMA-Derivaten vergleichbar ist. Beide Modelle unterstützen lange Kontextfenster, in einigen Dokumentationen bis zu 65.536 Token (oder 64K+).
Im 70B-Modell gibt es 80 Schichten und 64 Attention Heads. Das 8B-Modell verwendet weniger Heads (32), aber eine ähnliche Anzahl von Schichten.
Optimierer, Verlust und Regularisierung
Apertus verwendet AdEMAMix, eine Optimierer-Variante, anstelle des herkömmlichen AdamW, um die Trainingsstabilität und Konvergenz zu verbessern.
Darüber hinaus verwendet es ein Goldfish-Verlustziel anstelle der Standard-Kreuzentropie, mit dem Ziel, das wörtliche Auswendiglernen von Trainingsdaten zu reduzieren und somit Überanpassung oder unerwünschtes Wiederkäuen zu begrenzen.
Weitere Verbesserungen umfassen einen benutzerdefinierten Lernratenscheduler („Warmup-Stable-Decay”), der ein kontinuierliches Training ermöglicht (d. h. Flexibilität bei der Gesamtlänge des Trainings).
Weitere Verbesserungen umfassen einen benutzerdefinierten Lernratenschneider („Warmup-Stable-Decay“), der ein kontinuierliches Training ermöglicht (d. h. Flexibilität hinsichtlich der Gesamtdauer des Trainings).
Mehrsprachigkeit und Datensatzstrategie
Apertus ist ausdrücklich mehrsprachig. Der Trainingskorpus umfasst mehr als 1.000 Sprachen (einige Berichte sprechen von ~1.800) und beinhaltet bewusst auch unterrepräsentierte Sprachen (Schweizerdeutsch, Rätoromanisch).
Die Datensatzbasis umfasst FineWeb-Varianten, StarCoder, FineMath und CommonPile (öffentlicher Teil).
Bemerkenswert ist, dass die Datenerfassung robots.txt-/Crawler-Opt-out-Signale respektiert – auch rückwirkend – und personenbezogene Daten oder als nicht zulässig gekennzeichnete Inhalte ausschließt.
Die gesamte Pipeline, einschließlich der Datenfilterung, wird veröffentlicht, sodass Benutzer sie überprüfen können.
Bewertung und Benchmark-Leistung
In dem veröffentlichten technischen Bericht wird Apertus anhand mehrsprachiger Aufgaben und allgemeiner Denkaufgaben bewertet und erreicht dabei einen Durchschnitt von 67,5 % bei einer Mischung aus Benchmarks für das 70B-Modell und ~65,8 % für 8B bei vergleichbaren Aufgaben.
Zwar führt es die Leistungsranglisten im Vergleich zu proprietären Modellen nicht an, aber unter den vollständig offenen Modellen ist es wettbewerbsfähig oder übertrifft viele Mitbewerber.
Unabhängige Tests von Heise deuten darauf hin, dass das Modell bei suitableimmten Eingaben plausible Antworten liefert, aber auch Halluzinationen oder sachliche Fehler aufweist, insbesondere in Grenzfällen.
Zusammenfassend lässt sich sagen: Apertus ist im Vergleich zu den größten proprietären Systemen kein Leistungsmonster, aber es verbindet Offenheit und Leistungsfähigkeit auf eine Weise, wie es nur wenige andere tun.
Transparenz, Compliance und Ethik
Eines der wichtigsten Verkaufsargumente von Apertus ist vollständige Transparenz – nicht nur offene Gewichte, sondern auch offene Trainingsrezepte, Daten, Architektur und Compliance-Mechanismen.
Reproduzierbare Pipeline und Auditing
Alle wissenschaftlichen Artefakte – Datenaufbereitungs-Skripte, Checkpoints (inklusive Zwischen-Checkpoints), Trainingscode, Bewertungssuiten – werden unter einer Open-Source-Lizenz mit liberaler Zulassung frei gegeben.
Benutzer können jede Phase des Trainings vollständig replizieren oder überprüfen. Dies steht im Gegensatz zu vielen Modellen, die Gewichte veröffentlichen, aber Daten und Pipeline-Logik verbergen.
Datenschutz, Opt-Out, Datenkonformität
- Apertus wurde ausschließlich mit öffentlich zugänglichen Daten trainiert; es fand kein „Stealth Crawling” oder heimliches Scraping statt.
- Websites, die Crawler-Opt-out-Signale (über robots.txt oder APIs) ausgegeben haben, wurden rückwirkend berücksichtigt, was bedeutet, dass einige Inhalte ausgeschlossen wurden, auch wenn sie ursprünglich gecrawlt wurden.
- Es gibt eine Strategie zur Löschung/Filterung von Daten (für personenbezogene Daten, unerwünschte Inhalte).
- Auf der Hugging Face-Karte wird erwähnt, dass das Modell einen Ausgabefiltermechanismus unterstützt, um personenbezogene Daten aus generierten Texten zu entfernen, dessen regelmäßige Verwendung empfohlen wird.
Diese Maßnahmen helfen Apertus dabei, die Transparenzverpflichtungen des EU-KI-Gesetzes, die DSGVO/Datenschutzverordnung und die Schweizer Gesetze zum Datenschutz und Urheberrecht einzuhalten.
Regulatorische Bereitschaft und Souveränität
Aufgrund seiner Transparenz und Compliance-Auslegung wird Apertus als „EU AI Act ready“ angepriesen, d. h. es erfüllt die künftigen Anforderungen an Transparenz und Rückverfolgbarkeit in risikoreichen KI-Systemen.
Seine Entwicklung durch Schweizer öffentliche Institutionen steht auch im Einklang mit den europäischen Zielen der digitalen Souveränität: Verringerung der Abhängigkeit von ausländischen KI-Anbietern, insbesondere in sensiblen Bereichen (öffentliche Verwaltung, Gesundheitswesen, Finanzwesen).
Zusammenfassend lässt sich sagen, dass Apertus nicht einfach nur KI vorantreibt, sondern dies mit regulatorischer Weitsicht und integrierten ethischen Schutzmaßnahmen tut.
Anwendungsfälle und reale Anwendungen
Obwohl relativ neu, zeigt Apertus bereits vielversprechende Ergebnisse in realen und kurzfristigen Anwendungen.
Mehrsprachiger Zugang und Inklusion
Da Apertus viele unterrepräsentierte Sprachen (z. B. Schweizerdeutsch, Rätoromanisch) unterstützt, ermöglicht es Anwendungen in Bereichen, in denen gängige Modelle keine Abdeckung bieten. So können beispielsweise regionaler Journalismus, Dialektübersetzungen oder lokale Projekte zur digitalen Inklusion ein Modell nutzen, das lokale Dialekte besser versteht.
Regulierte und sensible Branchen
In Bereichen wie Legal Tech, Gesundheitswesen, öffentliche Verwaltung oder Finanzdienstleistungen, in denen Transparenz, Prüfpfade, Herkunft und Compliance von entscheidender Bedeutung sind, bietet Apertus einen Vorteil, da man genau untersuchen kann, wie das Modell trainiert wurde, und Rückschlüsse auf die Compliance ziehen kann. Einige Startups ziehen es gerade deshalb gegenüber proprietären Modellen vor. (Sie haben in Ihrer Anfrage ein Legal-Tech-Szenario erwähnt, das genau dazu passt.)
Forschung, Wissenschaft und Grundlagenarbeit im Bereich KI
In der Forschung ist Transparenz unerlässlich. Als vollständig reproduzierbares Modell wird Apertus zu einem gemeinsamen Artefakt für Experimente, Erweiterungen, das Training von Variantenmodellen, Feinabstimmungen und vergleichende Benchmarks.
Einsatz in Unternehmen/Cloud
Dank der Verfügbarkeit auf Cloud-Plattformen (z. B. über Amazon SageMaker) und offenen Einsatzmöglichkeiten können Unternehmen Apertus für interne Anwendungen (Chatbots, Zusammenfassungen, Domain-Assistenten) nutzen, ohne auf Black-Box-APIs angewiesen zu sein.
So wurde beispielsweise im AWS-Blog angekündigt, dass Apertus (sowohl das 8B- als auch das 70B-Modell) nun in Amazon SageMaker JumpStart verfügbar ist, zusammen mit Benchmark-Durchsatzmetriken und Bereitstellungsempfehlungen.
Öffentliche Infrastruktur und KI als öffentliches Gut
Schweizer Institutionen und PublicAI positionieren Apertus als Infrastruktur, die mit öffentlichen Versorgungsleistungen (Straßen, Wasser) vergleichbar ist. Dahinter steht die Idee, dass Länder, Regierungen oder zivile Technologieprojekte es als Basismodell übernehmen können, anstatt sich ausschließlich auf kommerzielle Anbieter zu verlassen.
Stärken und Wettbewerbsvorteile
Warum Apertus heraussticht (und wohin es andere führt):
- Unübertroffene Transparenz – Offene Gewichte, offene Daten, vollständige Pipeline-Dokumentation. Nur wenige Modelle können mit diesem Maß an Überprüfbarkeit mithalten.
- Mehrsprachigkeit – Umfassende Unterstützung für über 1.000 Sprachen, mit besonderem Fokus auf unterrepräsentierte Sprachen.
- Regulatorisches und ethisches Design – Entspricht den Datenvorschriften der Schweiz und der EU, respektiert Opt-out-Signale und minimiert die Speicherung von Daten.
- Flexible Bereitstellung – Zwei Modellgrößen (8B für geringere Nutzung, 70B für intensivere Nutzung) ermöglichen es Benutzern, Kosten und Leistungsfähigkeit abzuwägen.
- Institutionelle Unterstützung und Souveränität – Entwickelt von öffentlichen Schweizer Institutionen; bessere Abstimmung auf Anwendungsfälle in der EU/Schweiz.
- Cloud und offene Integration – Verfügbar auf Hugging Face, einsetzbar auf AWS SageMaker, unterstützt offene Ökosysteme wie vLLM, SGLang usw.
Kurz gesagt: Apertus opfert etwas Leistung bei modernsten Benchmarks zugunsten von Vertrauen, Überprüfbarkeit und regulatorischer Konformität.
Einschränkungen, Risiken und Kritikpunkte
Kein Modell ist perfekt. Einige bekannte Einschränkungen oder Bereiche, in denen bei Apertus Vorsicht geboten ist:
Daher kann es bei Aufgaben mit hohem Einsatz oder extremem Wettbewerbsdruck hinter kommerziellen Modellen zurückbleiben.
Hardware- und Ressourcenanforderungen
Während Apertus-8B für leistungsstarke lokale GPU-Konfigurationen zugänglich ist, erfordert Apertus-70B für die Inferenz und weitere Feinabstimmung erhebliche Hardware (z. B. mehrere GPUs oder eine High-End-Infrastruktur).
Reife der Community und des Ökosystems
Sein langfristiger Erfolg hängt stark vom Engagement der Community ab: Beiträge, Fehlerbehebungen, verbesserte Feinabstimmung, Domänenanpassung. Ohne ein lebendiges Entwickler-Ökosystem geeignetenht die Gefahr einer Stagnation im Vergleich zu Modellen, die von großen Unternehmensteams unterstützt werden.
Sicherheits- und Missbrauchsrisiken
Ein vollständig offenes Modell bedeutet, dass böswillige Akteure es missbrauchen oder für schädliche Aufgaben feinabstimmen könnten. Das Team verfügt zwar über Filter und Opt-out-Compliance, doch die Bereitstellung durch den Nutzer erfordert zusätzliche Sicherheitsvorkehrungen (Moderation, Inhaltsfilter, Nutzungsrichtlinien).
Kompromisse durch ethische Filterung und Opt-outs
Da Apertus Opt-out-Anfragen berücksichtigt und persönliche Inhalte filtert, ist seine Datenabdeckung konservativer. In Nischen- oder Spezialbereichen kann dies im Vergleich zu uneingeschränkten Modellen zu einer Verringerung der Leistung oder Datenfülle führen.
Apertus verwenden: Ein praktischer Leitfaden
Wenn Sie Entwickler, Forscher oder eine Organisation sind und Apertus ausprobieren möchten, finden Sie hier eine Schritt-für-Schritt-Anleitung:
Schritt 1: Zugriff und Download
- Die Modelle werden auf Hugging Face unter der Organisation Swiss-AI gehostet (z. B. swiss-ai/Apertus-70B-2509).
- Aphosts sind auch über Bereitstellungsplattformen wie AWS SageMaker (JumpStart) zugänglich.
- Die Swiss AI Initiative bietet auch eine Projektwebsite mit Links und Dokumentation.
Schritt 2: Wählen Sie ein Modell aus
- Apertus-8B für Experimente, lokale Bereitstellung und schnelles Prototyping
- Apertus-70B für die Produktion oder große/umfangreiche Aufgaben
Schritt 3: Umgebung und Abhängigkeiten einrichten
Stellen Sie sicher, dass Sie kompatible Frameworks verwenden:
- Transformers library (version ≥ 4.56.0)
- vLLM, SGLang, MLX, or other inference backends that support long context / memory models
- GPUs or cloud infrastructure capable of running large models
Schritt 4: Modell und Tokenizer laden (Python-Beispiel)
aus transformers import AutoTokenizer, AutoModelForCausalLM
Torch importieren
Modell-ID= “swiss-ai/Apertus-70B-2509”
Tokenizer= AutoTokenizer.from_pretrained(Modell-ID)
model = AutoModelForCausalLM.from_pretrained(model_id, torch_dtype=torch.bfloat16).to(„cuda“)
prompt = „Erläutern Sie die Bedeutung der digitalen Souveränität in drei Sätzen.“
inputs = tokenizer(prompt, return_tensors=”pt”).to(model.device)
output = model.generate(**inputs, max_new_tokens=100)
print(tokenizer.decode(output[0], skip_special_tokens=True))
Schritt 5: Tipps zur Optimierung und Bereitstellung
- Verwenden Sie Quantisierung oder Modellparallelität, um den Speicherverbrauch zu reduzieren.
- Passen Sie die Sampling-Parameter (Temperatur, top_p) für Ihren Anwendungsfall an.
- Erwägen Sie die Verwendung des mit dem Modell gelieferten Moduls zum Filtern personenbezogener Daten (damit die Ausgaben keine personenbezogenen Daten enthalten).
- Verwenden Sie für die Produktion vorzugsweise für den Durchsatz optimierte Inferenz-Backends (vLLM, GPU-Batching).
- Überwachen Sie regelmäßig die Leistung, Latenz und Ausgabequalität.
Schritt 6: Feinabstimmung und Domänenanpassung
Da das Modell offen ist, können Sie es anhand von überwachten Datensätzen oder RLHF (Reinforcement Learning with Human Feedback) auf domänenspezifische Daten (z. B. rechtliche, medizinische) abstimmen. Achten Sie stets auf die Einhaltung von Lizenz- und ethischen Beschränkungen.
Was Apertus für die Zukunft von Open AI bedeutet
Die Veröffentlichung von Apertus ist mehr als nur ein technischer Meilenstein – sie ist eine Aussage darüber, wie die nächste Generation der KI aussehen könnte (und vielleicht auch sollte). Dabei fallen mehrere wichtige Implikationen besonders ins Auge:
Verlagerung der Normen hin zu mehr Transparenz
Durch die Veröffentlichung nicht nur von Gewichten, sondern auch von Daten, Rezepten und Checkpoints setzt Apertus neue Maßstäbe dafür, was „offen” in der KI bedeutet. Es stellt die Vorstellung in Frage, dass leistungsstarke Modelle immer geschlossen sein müssen.
Unterstützung der digitalen Souveränität Europas/der Schweiz
Apertus stärkt die Vorstellung, dass Länder und Regionen ihre eigene KI-Infrastruktur aufbauen können, ohne vollständig von US-amerikanischen oder chinesischen Modellen abhängig zu sein. Dies hat besondere Bedeutung in regulierten Sektoren, in denen Datensouveränität und die Einhaltung von Vorschriften eine große Rolle spielen.
Ermöglichung einer verantwortungsvollen KI in regulierten Branchen
Da seine Herkunft überprüfbar ist, ist Apertus ein überzeugender Kandidat für Branchen, die die Herkunft ihrer Modelle gegenüber Regulierungsbehörden oder Kunden rechtfertigen müssen. Es könnte die Einführung von KI in Sektoren beschleunigen, die aufgrund von Zweifeln an der Transparenz bisher zurückhaltend waren.
Demokratisierung der KI-Forschung und -Experimentierung
Studierende, Labore, kleine Unternehmen und öffentliche Einrichtungen haben nun Zugang zu einem großen Modell, das sie vollständig überprüfen und modifizieren können. Dies schafft gleiche Wettbewerbsbedingungen in der grundlegenden KI-Forschung.
Ein Testfeld für Governance und Compliance
Das Design und die Mechanismen von Apertus (Opt-out-Respekt, Datenfilterung, Ausgabefilterung) werden zu einem Bezugspunkt. Zukünftige KI-Modelle müssen möglicherweise die Compliance-Funktionen von Apertus erfüllen oder übertreffen, um in regulierten Märkten wettbewerbsfähig zu sein.
Schlussfolgerung
Apertus ist nicht einfach nur ein weiteres LLM, sondern ein mutiges Experiment im Bereich offener, überprüfbarer, mehrsprachiger und regulierungskonformer KI. In einer Zeit, in der viele der leistungsstärksten Modelle hinter verschlossenen Türen arbeiten, bietet das Schweizer Unternehmen Apertus einen Entwurf dafür, wie Transparenz, Compliance und Leistungsfähigkeit nebeneinander existieren können.
Seine architektonischen Innovationen (Goldfish-Verlust, AdEMAMix, langer Kontext), seine mehrsprachige Reichweite und seine vollständig offene Pipeline machen es zu einem Meilenstein in der offenen KI. Seine Einschränkungen – geringere Leistung als proprietäre Giganten, hoher Ressourcenbedarf, Abhängigkeit von der Dynamik der Community – sind real, aber für viele Anwendungsfälle akzeptable Kompromisse, insbesondere in regulierten Branchen, in der Forschung oder im öffentlichen Sektor.
Für Entwickler und Organisationen bietet Apertus nicht nur ein leistungsstarkes Werkzeug, sondern auch eine Chance: KI auf eine Weise zu gestalten, zu überprüfen, zu optimieren und zu steuern, wie es mit Black-Box-Modellen nicht möglich ist. Da die Schweizer KI-Initiative sie weiterentwickelt und die KI-Community sich während der Swiss {ai} Weeks und darüber hinaus damit beschäftigt, könnte Apertus durchaus zu einem Eckpfeiler für eine vertrauenswürdige KI-Infrastruktur werden.
FAQs
Ist Apertus wirklich vollständig offen?
Ja. Die Architektur, Gewichte, Trainingsdaten und Trainingsverfahren von Apertus werden alle unter einer freizügigen Open-Source-Lizenz veröffentlicht.
Wie viele Sprachen unterstützt es?
Das Training ist auf mehr als 1.000 (und in der Nähe von 1.800) Sprachen ausgerichtet, wobei etwa 40 % der Daten in einer nicht-englischen Sprache vorliegen und auch Schweizer Dialekte unterstützt werden.
Kann ich Apertus kommerziell nutzen?
Ja – die offene Lizenz erlaubt sowohl die Nutzung zu Forschungszwecken als auch die kommerzielle Nutzung. Sie müssen jedoch die Lizenzbedingungen einhalten und die Kosten für Rechenleistung/Inferenz bezahlen.
Kann es mit GPT-4 oder anderen proprietären Modellen mithalten?
In Bezug auf die reine Leistung, insbesondere bei modernsten Benchmarks, liegt Apertus noch hinter den geeigneten proprietären Modellen zurück. Unter den vollständig offenen Modellen ist es jedoch wettbewerbsfähig, insbesondere aufgrund seiner Transparenzvorteile.
Welche Hardware benötige ich?
Für Apertus-8B kann eine High-End-GPU (z. B. 24 GB VRAM) ausreichend sein. Für Apertus-70B ist eine Multi-GPU der Serverklasse oder eine Cloud-Infrastruktur erforderlich.
Welche Schutzmaßnahmen gibt es gegen die Offenlegung personenbezogener Daten oder Halluzinationen?
Die Trainingspipeline filtert personenbezogene Daten und respektiert die Opt-out-Einstellungen von Websites. Die Modellkarte enthält eine Empfehlung, den „Filter für personenbezogene Daten” regelmäßig auf die Ausgaben anzuwenden.