Amazon Web Services gab am Freitag bekannt, dass es im Rahmen einer mehrjährigen Partnerschaft mit Fokus auf KI-Inferenz Prozessoren von Cerebras in seinen Rechenzentren einsetzen wird.
Der Deal bietet Amazon eine neue Möglichkeit, die Geschwindigkeit zu erhöhen, mit der KI-Modelle auf Eingabeaufforderungen antworten, Code schreiben und Live-Benutzeranfragen bearbeiten. AWS gab an, dass es die Cerebras-Technologie, einschließlich der Wafer-Scale Engine, für Inferenzaufgaben verwenden wird.
Die Unternehmen haben die finanziellen Bedingungen nicht offengelegt. Die Einrichtung ist für Amazon Bedrock innerhalb der AWS-Rechenzentren geplant und platziert die Partnerschaft direkt in einem der wichtigsten KI-Produkte von Amazon.
AWS gab an, dass das System Amazon Trainium-betriebene Server, Cerebras CS-3-Systeme und das Elastic Fabric Adapter-Netzwerk von Amazon kombinieren wird.
Später in diesem Jahr plant AWS auch, führende Open-Source-Large-Language-Modelle und Amazon Nova auf Cerebras-Hardware anzubieten. David Brown, Vice President of Compute and ML Services bei AWS, sagte, dass Geschwindigkeit immer noch ein großes Problem bei der KI-Inferenz sei, insbesondere für Echtzeit-Codierungshilfe und interaktive Apps.
David sagte: „Inferenz ist der Bereich, in dem KI echten Mehrwert für Kunden liefert, aber Geschwindigkeit bleibt ein kritischer Engpass für anspruchsvolle Workloads wie Echtzeit-Codierungsunterstützung und interaktive Anwendungen."
AWS erklärte, dass das Design eine Methode namens Inferenz-Disaggregation verwendet. Das bedeutet, die KI-Inferenz in zwei Teile aufzuteilen. Der erste Teil ist die Eingabeverarbeitung, auch Prefill genannt. Der zweite Teil ist die Ausgabegenerierung, auch Decode genannt.
AWS sagte, dass sich die beiden Aufgaben sehr unterschiedlich verhalten. Prefill ist parallel, rechenintensiv und benötigt moderate Speicherbandbreite. Decode ist seriell, weniger rechenintensiv und deutlich stärker von der Speicherbandbreite abhängig. Decode benötigt in diesen Fällen auch die meiste Zeit, da jedes Ausgabe-Token einzeln produziert werden muss.
Deshalb weist AWS jeder Phase unterschiedliche Hardware zu. Trainium wird Prefill übernehmen. Cerebras CS-3 wird Decode übernehmen.
AWS erklärte, dass Low-Latency-, High-Bandwidth-EFA-Netzwerke beide Seiten verbinden werden, sodass das System als ein Service funktionieren kann, während sich jeder Prozessor auf eine separate Aufgabe konzentriert.
David sagte: „Was wir mit Cerebras aufbauen, löst genau das: Indem wir die Inferenz-Workload auf Trainium und CS-3 aufteilen und sie mit Amazons Elastic Fabric Adapter verbinden, macht jedes System das, worin es am besten ist. Das Ergebnis wird eine Inferenz sein, die um eine Größenordnung schneller und leistungsfähiger ist als das, was heute verfügbar ist."
AWS gab außerdem an, dass der Service auf dem AWS Nitro System laufen wird, das die Basisschicht für seine Cloud-Infrastruktur darstellt.
Das bedeutet, dass Cerebras CS-3-Systeme und Trainium-betriebene Instanzen voraussichtlich mit derselben Sicherheit, Isolation und Konsistenz arbeiten werden, die AWS-Kunden bereits nutzen.
Die Ankündigung gibt Amazon auch eine weitere Gelegenheit, Trainium gegen Chips von Nvidia, AMD und anderen großen Chip-Unternehmen zu positionieren. AWS beschreibt Trainium als seinen hauseigenen KI-Chip, der für skalierbare Leistung und Kosteneffizienz über Training und Inferenz hinweg entwickelt wurde.
AWS sagte, dass sich bereits zwei große KI-Labore dazu verpflichtet haben. Anthropic hat AWS zu seinem primären Trainingspartner ernannt und verwendet Trainium zum Trainieren und Bereitstellen von Modellen. OpenAI wird 2 Gigawatt Trainium-Kapazität über die AWS-Infrastruktur für Stateful Runtime Environment, Frontier-Modelle und andere fortgeschrittene Workloads nutzen.
AWS fügte hinzu, dass Trainium3 seit seiner kürzlichen Veröffentlichung eine starke Akzeptanz erfahren hat, wobei Kunden aus verschiedenen Branchen erhebliche Kapazitäten zugesagt haben.
Cerebras übernimmt die Decode-Seite der Einrichtung. AWS sagte, dass CS-3 der Dekodierungsbeschleunigung gewidmet ist, was ihm mehr Raum für schnelle Ausgabe-Token gibt. Cerebras sagt, CS-3 sei das weltweit schnellste KI-Inferenzsystem und liefere tausendmal größere Speicherbandbreite als die schnellste GPU.
Das Unternehmen sagte, dass Reasoning-Modelle jetzt einen größeren Anteil der Inferenzarbeit ausmachen und mehr Token pro Anfrage generieren, während sie Probleme durcharbeiten. Cerebras sagte auch, dass OpenAI, Cognition, Mistral und andere seine Systeme für anspruchsvolle Workloads verwenden, insbesondere für agentische Codierung.
Andrew Feldman, Gründer und Chief Executive von Cerebras Systems, sagte: „Die Partnerschaft mit AWS zum Aufbau einer disaggregierten Inferenzlösung wird die schnellste Inferenz zu einem globalen Kundenstamm bringen."
Andrew fügte hinzu: „Jedes Unternehmen auf der ganzen Welt wird in der Lage sein, von blitzschneller Inferenz innerhalb seiner bestehenden AWS-Umgebung zu profitieren."
Der Deal erhöht den Druck auf Nvidia, das im Dezember eine Lizenzvereinbarung über 20 Milliarden Dollar mit Groq unterzeichnet hat und plant, nächste Woche ein neues Inferenzsystem mit Groq-Technologie vorzustellen.
Wenn Sie dies lesen, sind Sie bereits einen Schritt voraus. Bleiben Sie dabei mit unserem Newsletter.


