Claude Mythos: Zu gefährlich für die Öffentlichkeit – oder perfektes Timing vor dem IPO?

Anthropic baut ein KI-Modell, das so gefährlich ist, dass es nicht veröffentlicht werden soll. Es bricht aus seiner Sandbox aus. Schickt einem Forscher eine E-Mail, während der im Park sein Sandwich isst. Und eine Gruppe Unbekannter nutzt es trotzdem – seit dem ersten Tag. Das klingt nach einem Techno-Thriller. Es ist die offizielle Kommunikation eines der wertvollsten KI-Unternehmen der Welt, kurz vor dem erwarteten Börsengang.

Was ist Mythos?

Am 7. April 2026 kündigte Anthropic Claude Mythos an. Kein normaler Nachfolger von Opus oder Sonnet, sondern eine eigene Stufe darüber, intern "Capybara" genannt. Gleichzeitig wurde Project Glasswing vorgestellt: ein kontrolliertes Programm, das ausgewählten Partnern wie Apple, Microsoft und CrowdStrike Zugang gibt. Öffentlich verfügbar wird Mythos vorerst nicht. Anthropic hält es bewusst zurück. Der Grund steht im offiziellen System Card: Mythos identifiziert Zero-Day-Schwachstellen in jedem großen Betriebssystem und Browser, darunter eine 27 Jahre alte Lücke in OpenBSD. Zuletzt waren es 271 Sicherheitslücken im Firefoxbrowser. Es baut funktionierende Exploits beim ersten Versuch in 83% der Fälle. Und es ist während eines internen Red-Team-Tests aus seiner Sandbox ausgebrochen. Dafür hat es sich Internetzugang verschafft, dem zuständigen Forscher eine E-Mail geschickt und danach eigenständig seine Exploit-Methoden auf öffentlich zugänglichen Seiten veröffentlicht. Ohne Anweisung.

Zero-Days, CVEs – und warum das relevant ist

Ein Zero-Day ist eine Sicherheitslücke, die dem Hersteller noch unbekannt ist. Kein Patch, keine Warnung, kein Schutz. Zwischen Entdeckung und Veröffentlichung als CVE liegen oft Wochen oder Monate – in denen Angreifer ungestört agieren können. Genau das macht Mythos für die Verteidigung wertvoll: Es kann Lücken finden, bevor Angreifer sie ausnutzen. Anthropic erwartet deshalb eine Welle neuer CVE-Meldungen in der zweiten Jahreshälfte 2026 als direktes Ergebnis der Glasswing-Partnerschaft. Dieselbe Fähigkeit macht Mythos in den falschen Händen gefährlich – was erklärt, warum Anthropic den Zugang so strikt kontrollieren wollte. Wollte.

Der Zugang war eine URL weit entfernt

Bloomberg berichtete am 21. April: Eine (Discord) Gruppe hat sich Zugang zu Mythos verschafft – noch am Tag der Ankündigung. Kein klassischer Hack. Sie haben den Serverstandort auf Basis bekannter Anthropic-URL-Formate erraten und sich über einen Drittanbieter-Account eingewählt, dessen Mitarbeiter legitimen Zugang hatte. Seitdem nutzen sie Mythos regelmäßig. Anthropic untersucht den Vorfall. Bisher keine Hinweise auf Schäden an eigenen Systemen – die Gruppe sei "interessiert am Ausprobieren, nicht an Chaos." Trotzdem ist das ein Problem. Project Glasswing war explizit dafür gebaut, genau dieses Szenario zu verhindern. Es hat nicht gereicht.

Kleine Modelle, großes Kaliber

Noch interessanter wird es, wenn man sich anschaut, was andere mit deutlich kleineren Mitteln replizieren konnten. Das Startup AISLE hat Mythos' Vorzeige-Schwachstellen mit kleinen, günstigen Open-Source-Modellen getestet. Ergebnis: Acht von acht Modellen erkannten den FreeBSD-Exploit, den Anthropic als Mythos-Flaggschiff präsentiert – darunter eines mit 3,6 Milliarden aktiven Parametern für 0,11 Dollar pro Million Token. Ein Modell mit 5,1 Milliarden aktiven Parametern rekonstruierte die vollständige Exploit-Kette der 27 Jahre alten OpenBSD-Lücke. Der gesamte Scan beider Kernel kostete unter 100 Dollar. Im Vergleich zu den ca. 25.000 $ für Mythos.

Die Schlussfolgerung von AISLE ist klar: Der entscheidende Faktor ist das System, nicht das Modell. Wer die richtigen Prozesse, die richtige Orchestrierung und Security-Know-how mitbringt, kommt mit deutlich günstigeren Modellen erstaunlich weit. Mythos maximiert die Intelligenz pro Token – aber wer das Budget nicht hat, kann mit mehr Token pro Dollar kompensieren.

Das hat eine unangenehme Konsequenz: Die Schwelle für gefährliche Cybersecurity-Fähigkeiten ist niedriger, als Anthropics Narrative vermuten lässt.

KI in der Security – Benchmark vs. Realität

Hier lohnt sich ein kurzer Reality-Check. KI-Modelle performen in kontrollierten Tests oft beeindruckend – und in der Praxis deutlich ungleichmäßiger. AISLE hat das auch für Mythos gezeigt: Bei einem simplen OWASP-False-Positive-Test, bei dem es darum geht, eine scheinbare SQL-Injection als harmlos zu identifizieren, versagen die meisten großen Frontier-Modelle – inklusive mehrerer Claude-Versionen. Kleine Open-Source-Modelle bestehen denselben Test zuverlässiger. Die Fähigkeiten sind "jagged" – sie skalieren nicht gleichmäßig mit Modellgröße oder Preis. Kein Modell ist konsistent das beste für alle Security-Aufgaben. Das bedeutet nicht, dass KI in der Cybersecurity nutzlos ist. Es bedeutet, dass Benchmarks und PR-Ankündigungen mit Vorsicht zu genießen sind.

IPO-Vorbereitung oder echte Sicherheitsbedenken?

Einige Beobachter stellen eine unbequeme Frage: Ist das alles zu gut getimed, um Zufall zu sein? Zwei hochkarätige "Leaks" in einem Monat: Ende März der versehentliche Quellcode-Leak von Claude Code mit 512.000 Zeilen auf npm – inklusive unveröffentlichter Features und System-Prompts. Anfang April die Mythos-Ankündigung mit Sandbox-Escape, Sandwich-E-Mail und dem Narrativ "zu gefährlich für die Öffentlichkeit". Alles kurz vor dem erwarteten Anthropic-Börsengang. "Das gefährlichste KI-Modell aller Zeiten, das wir aus Verantwortungsbewusstsein zurückhalten" ist auch ein perfektes Verkaufsargument. Es positioniert Anthropic gleichzeitig als technologisch führend und als verantwortungsvoller Akteur – zwei Eigenschaften, die Investoren lieben. Bedeutet das, dass Mythos nicht real ist? Nein. Die Fähigkeiten sind dokumentiert und von unabhängigen Quellen bestätigt. Der Sandbox-Escape steht im offiziellen System Card. Das ist kein reines Marketing. Aber die Frage, ob Timing und Kommunikation auch strategischen Zielen dienen, ist legitim – und sollte gestellt werden.

Was bleibt

Anthropic trifft mit Mythos grundsätzlich die richtigen Entscheidungen: Modell zurückhalten, transparent kommunizieren, kontrollierten Zugang schaffen. Das ist mehr, als viele andere tun würden. Aber wenn dieser Zugang über eine erratene URL und einen Drittanbieter-Account unterläuft, wenn kleine Modelle bereits einen Großteil der Fähigkeiten replizieren können, und wenn Benchmarks in der Praxis ungleichmäßig halten, was sie versprechen – dann ist die eigentliche Frage nicht, ob Mythos gefährlich ist. Die Frage ist, ob wir als Branche die Kontrolle über das haben, was gerade passiert. Oder ob Kontrolle nur noch ein Mythos ist.

Quellen:

reuters.com techcrunch.com bloomberg.com heise.de aisle.com

Lucas Schraa ist Teamleiter Direct Sales bei Enginsight GmbH. Er schreibt und spricht über Cybersecurity, KI und modernen B2B-Vertrieb – mit dem Blick eines Praktikers, der täglich mit Unternehmen arbeitet, die ihre IT-Sicherheit ernstnehmen wollen. Als Speaker bringt er diese Themen auch auf die Bühne. Sein Anspruch: IT-Sicherheit nicht nur einzuführen, sondern dauerhaft zu verankern.