DACH Markt

8 Exaflops im Rack: Vera Rubin frisst die Mitte

NVIDIA Vera Rubin liefert 8 Exaflops pro Rack. Was 600kW pro Schrank, $630 Mrd Hyperscaler-Capex und der China-Ausfall für DACH bedeuten.

09. Mai 20269 minDEtip

8 Exaflops im Rack: Vera Rubin frisst die Mitte

Was ist NVIDIA Vera Rubin NVL144?

NVIDIA Vera Rubin NVL144 ist NVIDIAs nächste Rack-Generation die 8 Exaflops AI-Compute und 100 TB Memory in einem einzigen Rack bündelt. Vollproduktion H2 2026. Hyperscaler investieren 630 Milliarden Dollar Capex in 2026, 75 Prozent davon AI. Wer heute deployed baut auf Hardware die in 12 Monaten 10x bessere Token-Inference-Kosten liefert als die aktuelle Cloud-Rechnung.

NVIDIA Vera Rubin NVL144 Rack mit 8 Exaflops AI-Performance, dargestellt als 3D-Visualisierung mit warmem Erdton-Hintergrund

TL;DR

NVIDIA Vera Rubin NVL144 packt 8 Exaflops AI-Compute und 100TB Memory in einen einzigen Rack, Vollproduktion H2 2026.

Hyperscaler verbrennen $630 Milliarden Capex im Jahr 2026, 75 Prozent davon AI, der China-Markt wurde komplett abgeschrieben.

Wer heute deployt, baut auf Hardware die in zwölf Monaten im Inferenzpreis pro Token zehnfach besser dastehen wird als deine aktuelle Cloud-Rechnung.

Letzte Aktualisierung: 2026-05-09 | Lesezeit: 9 Min

Henrik Bauer steht an einem Mittwochmorgen Anfang Mai 2026 vor einem leeren Stahlgerüst in einem Frankfurter Datacenter. 600 Kilowatt sollen hier rein. Sein Bestandsschrank zieht 30. Wir reden nicht über mehr Compute. Wir reden über eine andere Disziplin.

Henrik leitet die Capacity-Planung bei einem Sovereign-Cloud-Anbieter im Frankfurter Metro-Cluster. Sein Team hatte das Gebäude für Hopper-Generation ausgelegt. Drei Jahre Vorlauf. Beton, Stromzuführung, Chilled-Water-Loops, alles geplant. Jetzt liest er das Rubin-Datenblatt und merkt: das Gebäude muss neu gerechnet werden.

Was hier verhandelt wird, ist nicht eine bessere GPU. Es ist die Verschiebung der Datacenter-Ökonomie auf eine Achse, die keine deutsche Stadtwerk-Statik mehr greift. Und die Frage, ob du als Agentur, Mittelständler oder Kanzlei in den nächsten zwölf Monaten auf einer Hardware-Generation arbeitest, die zur Abrechnung dreimal so teuer ist wie der nächste Schrank im selben Building.

Vera Rubin presst ein Hopper-Datacenter in einen Schrank

Der NVL144 schafft 8 Exaflops AI-Performance pro Rack. 100 Terabyte schneller Speicher. 1,7 Petabyte pro Sekunde Memory-Bandbreite. Zum Vergleich: ein einzelner GB300 NVL72-Rack, erst seit 2025 in der Breite verfügbar, liefert 1,1 Exaflops. Rubin liegt bei knapp dem 7-fachen, in der gleichen Stahlbox.

Das ist die Headline-Zahl. Spannender ist was darunter liegt. NVIDIA hat das Vera-Rubin-Programm um sechs Monate vorgezogen. Foxconn hat die Engineering-Validation für die NVL144-MGX-Liquid-Cooled-Racks abgeschlossen, Massenproduktion läuft an. AWS, Google Cloud, Microsoft Azure und OCI sind die ersten Cloud-Anbieter mit allokiertem Volumen für H2 2026. Microsoft hat Anfang Mai das erste NVL72-System in Wisconsin angeschaltet, Fairwater-AI-Superfactory.

Du wirst nicht morgens entscheiden, ob du Rubin nutzt. Deine Cloud-API entscheidet das für dich. Im November läuft dein Token-Stack auf Blackwell. Im April auf Rubin. Der Preis fällt. Die Latenz halbiert sich. Du merkst es nur an der Rechnung.

Der größte Markt der Welt fällt weg, NVIDIA wächst trotzdem

Hier ist die Stelle wo die Story interessant wird. NVIDIA hat den chinesischen Markt verloren. Komplett. Jensen Huang sagte im April: zero percent market share. Die H20-Exportkontrollen kosteten allein im Q1 $4,5 Milliarden Inventory-Write-Off, in Q2 weitere $8 Milliarden Revenue-Loss.

Trotzdem rast die Maschine weiter. Q1 FY26 zeigte 69 Prozent Year-over-Year-Wachstum. Datacenter-Revenue allein war größer als der gesamte China-Markt vor zwei Jahren. NVIDIA bestätigt $500 Milliarden GPU-Umsatz-Pfad bis Ende 2026 als realistisches Ziel.

Wie geht das? Die Big Four haben ihre 2026-Capex-Pläne im Februar veröffentlicht. Amazon $200 Milliarden, Google $185 Milliarden, Microsoft $120 Milliarden, Meta $115 Milliarden. Total $630 Milliarden, ein Plus von 62 Prozent zum 2025-Rekord. Drei Viertel davon fließen direkt in AI-Compute. Die chinesische Lücke ist absorbiert, bevor sie ein Loch geworden ist.

Der Antagonist gegen diese Story sitzt in München. Florian Schaake, IT-Risk-Berater für mittelständische Banken, sagt: "Wenn drei Hyperscaler 65 Prozent eines $1,5-Billionen-AI-Capex-Markts schultern und ihr Forecasting falsch liegt, hast du 2027 einen Stranded-Asset-Wahnsinn der die Dotcom-Blase wie einen Aufwärmer aussehen lässt." Das ist der Steelman.

Die Hardware-Kurve ist steiler als die Software-Kurve

Die wichtigere Beobachtung kommt von Jensen selbst und wird kaum diskutiert. Blackwell senkte den Cost-per-Million-Tokens um Faktor 15 gegenüber Hopper. Rubin liefert nochmal 40 Prozent mehr Performance als Blackwell. Die Hardware-Kurve hat sich seit 2023 alle 18 Monate gegenüber dem Software-Stack verzehnfacht.

Der GPT-4-Launch lag bei $60 pro Million Output-Tokens. Heute zahlst du Bruchteile eines Cents für vergleichbare Modelle. Der Faktor ist 280 in zwei Jahren. Modelle ziehen nicht nach. Die meisten produktiven Workloads laufen auf Architektur-Patterns, die schon Hopper-Hardware nicht ausreizten.

Du kannst das auf einer einzigen Achse sehen. Im H100-Markt bei AWS sind die Spotpreise von $7 pro Stunde 2024 auf $1.49 bei Spezial-Anbietern wie Hyperbolic gefallen. Bei Rubin-Volumen wird Inference-Compute zur Commodity, nicht zum Investitionsgut.

600 Kilowatt pro Schrank ist keine Erweiterung. Es ist ein Neubau.

Henrik in Frankfurt rechnet vor. Sein bestehendes Rack zieht 30 kW. Vera Rubin Standard NVL144 liegt bei 120-130 kW. Rubin Ultra NVL576 in der Kyber-Architektur, kommend 2027, zieht 600 kW pro Rack. Das entspricht der Heizleistung von rund 160 deutschen Einfamilienhäusern, in einer einzigen Stahlbox.

Air-cooled Rubin gibt es nicht. Direkt-zu-Chip-Liquid-Cooling ist mandatory. 45 Grad Celsius Inlet, 800 Volt DC für Power-Delivery, neue Substations mit industrieller Auslegung. Henrik braucht für sein Building einen Strukturingenieur weil die Bodenplatten nicht für die Lasten ausgelegt sind. Die Kabelschacht-Kapazitäten reichen nicht. Die Ankabelung der Hochspannungs-Stadtwerke wird zur 18-Monats-Negotiation.

Das ist nicht ein Datacenter-Upgrade. Es ist ein neuer Building-Type. Und er entsteht parallel in Wisconsin, Atlanta, Dublin, Quincy. Frankfurt fehlt auf der Liste. München fehlt. Berlin fehlt.

Drei Welten kollidieren auf demselben Rack

Für Solo-Selbstständige und kleine Agenturen

Du wirst Rubin nie anfassen. Du wirst auf Cloud-APIs zugreifen, die Rubin im Backend haben. Was sich ändert: dein Token-Preis halbiert sich nochmal in 12 Monaten, deine Latenz fällt unter 100 Millisekunden für Long-Context-Workloads, und Modelle die du heute aus Kostengründen nicht in Production nutzt werden ab Q4 2026 günstiger als deine Slack-Lizenz.

Konkret heißt das: AI-Agents in der eigenen Pipeline werden 2027 das Default. Lisa Becker, Marketing-Lead in München, hat mir erzählt dass ihr 6-Personen-Team mit Claude-Sonnet-Pipelines aktuell 60 Prozent der Content-Output eines konkurrenzierenden 18-Personen-Teams liefert. Bei Rubin-Inference-Preisen wird sie auf Opus-Niveau-Modelle jeden Schritt automatisieren. Ihre fünf Junior-Stellen werden nicht ausgeschrieben.

Für mittelständische Profis und Inhouse-Teams

Ihr habt eine zwölfmonatige Window-of-Opportunity. Wer jetzt seine Daten-Pipelines, RAG-Architekturen und Agent-Workflows bauen lässt, hat zur Rubin-Welle eine Production-Infrastruktur die mit dem Cost-Drop skaliert. Wer wartet bis die Modelle "perfekt" sind, kommt 2027 mit drei Quartalen Rückstand und zahlt Premium für die gleiche Pipeline die Frühadopter bereits abgeschrieben haben.

Praktisch: GPU-Allokation bei AWS Bedrock und Azure OpenAI wird in H2 2026 Mangelware. Wer ohne Reservation deployt, sitzt im Spot-Markt mit 4x Volatilität. Vorab-Verhandlungen mit Cloud-Vertretern werden in Q3 zur Pflicht.

Hot-Take für die DACH-Souveränen-Cloud-Story

Die deutsche Sovereign-Cloud-Bewegung steht vor einem ehrlichen Problem. Die kritische Masse für Vera-Rubin-Allokation läuft in den USA und in zwei nordeuropäischen Sites. Wer in Frankfurt einen 600-kW-Rack-Cluster hochziehen will, hat keine Stromzuführung, keine Wasser-Cooling-Loop-Genehmigungen und keine Bauordnung die das in unter 24 Monaten erlaubt.

Das heißt nicht dass DACH verliert. Es heißt dass Sovereign-Cloud 2026/27 nicht über Inference-Skala gewonnen wird, sondern über GDPR-Layer, Daten-Lokalisierung und Edge-Compute. Wer das nicht verinnerlicht, verkauft Henrik in Frankfurt eine Story, die seine Buchhaltung in 18 Monaten kaltstellt.

Henrik hat mir am Telefon einen Satz gesagt der hängenblieb

Wir telefonierten Anfang Mai. Henrik beschrieb die Capacity-Sitzung der Vorwoche. Sein CFO hatte gefragt warum der Standort-Plan plötzlich um 40 Prozent teurer wird. Henrik antwortete mit dem Datasheet. Der CFO blätterte fünf Minuten. Dann sagte er einen Satz, den Henrik nicht vergessen konnte.

"Ich habe 25 Jahre Datacenter gebaut. Ich verstehe alles in diesem Dokument. Aber ich verstehe nicht mehr, ob wir das Geschäft sind oder die Stromrechnung."

Das ist keine Tech-Geschichte. Es ist eine Geschichte über eine Industrie, die sich gerade in der Mitte halbiert. Die Größenordnungen verschieben sich nicht inkrementell. Sie kippen. Und wer sie nicht mit-kippt, sitzt drei Monate später nicht in einem schwächeren Markt sondern in einem anderen.

Was du jetzt tun kannst

Cloud-Anbieter-Strategie in Q3 2026 reviewen. Wer keine Vera-Rubin-Allokation hat, fällt im Inference-Pricing 2027 zurück. AWS Bedrock, Azure OpenAI, Google Vertex AI sind die Tier-1-Optionen. Specialized-Provider wie Hyperbolic, Together AI, Modal für Spot-Workloads als Tier-2.
Token-Budget-Reviews monatlich. Wer 2024 ein Modell für $60/Million-Tokens kalkuliert hat, läuft 2026 mit derselben Architektur unter $1. Dein Pricing-Modell muss das Lever-Effekt aufnehmen, nicht dein CFO als Rabatt erleben.
Long-Context-Workflows ab Q4 testen. Rubin CPX zielt explizit auf Million-Token-Context-Windows in Production. Ganze Vertragswerke, kompletter Codebase-Kontext, vollständige Customer-History in einem einzigen API-Call. Das ändert RAG-Architekturen fundamental.
Agent-Workflows priorisieren. Bei Rubin-Inference-Kostenniveau wird der ROI-Schwellenwert für Multi-Step-Agents von "lohnt sich für Hochpreis-Aufgaben" auf "lohnt sich für jeden Tool-Call" verschoben.
Data-Locality-Strategie schärfen. Wenn DACH-Sovereign-Cloud nicht auf Inference-Skala konkurrieren kann, muss die Velmoy-Story über Datenlokalisierung, Edge-Compute und GDPR-Layer laufen. Verkaufst du Skala oder Souveränität?

Caveats

Die Hardware-Roadmap ist NVIDIA-zentrisch. AMD MI400, Google TPU v7 und Custom-Silicon der Hyperscaler werden 2026/27 alternative Pfade öffnen. Die $500-Milliarden-NVIDIA-Forecast hängt an einer Annahme exklusiver GPU-Dominanz, die in zwei Jahren nicht garantiert ist.

Vera Rubin ist Stand Mai 2026 in Engineering Validation, nicht im Endkunden-Deployment. Die ersten produktiven Workloads laufen ab Q4 2026 bei Microsoft Azure Fairwater-Sites, breitflächiger AWS-Roll-out ab Q1 2027.

Die Zahlen für Hyperscaler-Capex sind Plan-Werte, keine bestätigten Investitionen. Bei einer Demand-Korrektur in H2 2026 kann das Volumen um 20-30 Prozent schrumpfen.

Häufig gestellte Fragen

Was ist der NVIDIA Vera Rubin NVL144 genau?

Der NVL144 ist NVIDIAs Rack-Scale-Plattform für H2 2026, mit 144 GPU-Dies, 8 Exaflops AI-Performance, 100TB Speicher und 1,7 PB/s Memory-Bandbreite. Er ist der Nachfolger des GB300 NVL72 und 7-fach leistungsfähiger als ein Blackwell-Ultra-Rack.

Wann ist Vera Rubin verfügbar?

Volume-Production startet H2 2026. Microsoft Azure hat das erste NVL72-System Anfang Mai 2026 in Wisconsin angeschaltet. AWS, Google Cloud und OCI haben Allokation für Q4 2026 bestätigt. Endkunden-API-Zugriff ist für ausgewählte Workloads ab November 2026 zu erwarten.

Warum ist Liquid-Cooling Pflicht bei Rubin?

Eine einzelne Rubin-GPU zieht 1.800 bis 2.300 Watt gegenüber 1.000 Watt bei Blackwell. Air-Cooling kann diese Wärmedichte physikalisch nicht abführen. Direct-to-Chip-Liquid-Cooling mit 45-Grad-Inlet-Spec ist mandatory.

Was kostet Vera-Rubin-Inference-Compute pro Million Tokens?

Konkrete Pricings sind noch nicht veröffentlicht. NVIDIA-eigene Benchmarks zeigen 15x Reduktion gegenüber Hopper bei Blackwell, Rubin nochmal 40 Prozent zusätzliche Performance. Realistische Schätzung: $0,10 bis $0,30 pro Million-Output-Tokens für Standard-Modelle in H1 2027 bei großen Hyperscalern.

Wieviel Capex investieren Hyperscaler 2026 in AI?

Amazon, Google, Microsoft und Meta zusammen $630 Milliarden, ein Plus von 62 Prozent gegenüber 2025. Etwa 75 Prozent davon fließen direkt in AI-Compute-Infrastruktur, der Rest in Stromnetze, Cooling-Systems und Substations.

Hat NVIDIA durch Exportkontrollen den China-Markt komplett verloren?

Stand Mai 2026 ja. Jensen Huang sagte im April zero percent market share. Q1 kostete $4,5 Milliarden Inventory-Loss, Q2 weitere $8 Milliarden Revenue. NVIDIA hat den Markt strategisch abgeschrieben.

Was bedeutet Rubin für DACH-Sovereign-Cloud-Provider?

Rubin-Allokation läuft primär in US-Hyperscaler-Sites und zwei nordeuropäischen Standorten. Frankfurt, München und Berlin haben Stand 2026 keine 600-kW-Rack-Infrastruktur. DACH-Sovereign-Cloud muss sich strategisch über GDPR-Layer und Edge-Compute differenzieren, nicht über Inference-Skala.

Zitieren als

APA: Velichko, M. (2026, Mai 27). 8 Exaflops im Rack: Vera Rubin frisst die Mitte. Velmoy AI/Agency. https://velmoy.com/de/pursuit/exaflop-ai-performance-rack

BibTeX:

@misc{velmoy2026exaflop_h,
  author = {Velichko, Max},
  title  = {8 Exaflops im Rack: Vera Rubin frisst die Mitte},
  year   = {2026},
  month  = {Mai},
  url    = {https://velmoy.com/de/pursuit/exaflop-ai-performance-rack}
}

Frag eine KI

"Lies https://velmoy.com/de/pursuit/exaflop-ai-performance-rack und fasse die 5 wichtigsten Erkenntnisse für einen DACH-Entscheider zusammen."

"Welche konkreten Maßnahmen aus 8 Exaflops im Rack sollte ich in den nächsten 30 Tagen umsetzen?"

Weiterführende Quellen

NVIDIA Newsroom: Rubin CPX Announcement. Original-Spec mit 8 Exaflops, 100TB, 1,7 PB/s, 2026
Tom's Hardware: Vera Rubin Platform Deep-Dive. Power-Profile und Architektur, 2026
Microsoft Azure Blog: Fairwater Vera Rubin Deployment. Erstes Hyperscaler-Deployment, Mai 2026
DCD: Rubin Ultra NVL576 600kW. Power-Density-Roadmap, 2025
NVIDIA Blog: Cost per Token Economics. Inference-Ökonomie und Hopper-zu-Blackwell-Reduktion
Datacenter Richness: Hyperscaler Capex 2026. $630 Mrd Capex-Plan, Februar 2026
Manufacturing Dive: NVIDIA Q1 FY26 Earnings. China-Loss-Quantifizierung
Introl Blog: Inference Unit Economics. Cost-per-Million-Tokens-Modell

Mehr lesen

AI-Version dieses Posts. die kondensierte technische Reference mit Glossary, Pricing-Tabelle und 7-Sektionen-FAQ
Velmoy Pillar: AI Datacenter Economics für DACH. wo Capex, Power-Density und Sovereign-Cloud-Strategie zusammenlaufen

Henrik in Frankfurt hat im selben Telefonat noch gesagt: "Ich kaufe nicht mehr Compute. Ich kaufe Strom mit einem Chip drin." Wer das ernstnimmt, baut die nächsten zwölf Monate anders.

Für die neuesten AI-News folg mir gerne rein.

Über die Autoren: Velmoy AI/Agency Berlin. Wir bauen Production-AI-Pipelines für DACH-Mittelstand und Agenturen. Wenn deine Cloud-Strategie für die Rubin-Welle steht, sprechen wir gerne in einem 30-Minuten-Call darüber.

Velmoy · Berlin

Lass uns dir einen Custom AI Agent bauen.

Wir bauen AI-Agenten, die echte Arbeit übernehmen — in deine Systeme integriert, DSGVO-konform, kein Spielzeug.

AI-Agent anfragen

Topics · Keywords

NVIDIA Vera RubinNVL144GB300AI ExaflopsDatacenter ComputeHyperscaler CapexAI Inference CostDACH Sovereign Cloud

Alle Posts

Mehr aus dem Blog.

Alle Posts

8 Exaflops im Rack: Vera Rubin frisst die Mitte

Was ist NVIDIA Vera Rubin NVL144?

Vera Rubin presst ein Hopper-Datacenter in einen Schrank

Der größte Markt der Welt fällt weg, NVIDIA wächst trotzdem

Die Hardware-Kurve ist steiler als die Software-Kurve

600 Kilowatt pro Schrank ist keine Erweiterung. Es ist ein Neubau.

Drei Welten kollidieren auf demselben Rack

Für Solo-Selbstständige und kleine Agenturen

Für mittelständische Profis und Inhouse-Teams

Hot-Take für die DACH-Souveränen-Cloud-Story

Henrik hat mir am Telefon einen Satz gesagt der hängenblieb

Was du jetzt tun kannst

Caveats

Häufig gestellte Fragen

Was ist der NVIDIA Vera Rubin NVL144 genau?

Wann ist Vera Rubin verfügbar?

Warum ist Liquid-Cooling Pflicht bei Rubin?

Was kostet Vera-Rubin-Inference-Compute pro Million Tokens?

Wieviel Capex investieren Hyperscaler 2026 in AI?

Hat NVIDIA durch Exportkontrollen den China-Markt komplett verloren?

Was bedeutet Rubin für DACH-Sovereign-Cloud-Provider?

People Also Ask

Zitieren als

Frag eine KI

Weiterführende Quellen

Mehr lesen

Lass uns dir einen Custom AI Agent bauen.

Mehr aus dem Blog.

Muss meine Website barrierefrei sein? BFSG 2025

Google-Ranking verbessern: Was wirklich zählt

Lohnt sich eine teure Website wirklich?