8 Exaflops im Rack: Vera Rubin frisst die Mitte
NVIDIA Vera Rubin liefert 8 Exaflops pro Rack. Was 600kW pro Schrank, $630 Mrd Hyperscaler-Capex und der China-Ausfall für DACH bedeuten.

8 Exaflops im Rack: Vera Rubin frisst die Mitte
Was ist NVIDIA Vera Rubin NVL144?
NVIDIA Vera Rubin NVL144 ist NVIDIAs nächste Rack-Generation die 8 Exaflops AI-Compute und 100 TB Memory in einem einzigen Rack bündelt. Vollproduktion H2 2026. Hyperscaler investieren 630 Milliarden Dollar Capex in 2026, 75 Prozent davon AI. Wer heute deployed baut auf Hardware die in 12 Monaten 10x bessere Token-Inference-Kosten liefert als die aktuelle Cloud-Rechnung.

TL;DR
- NVIDIA Vera Rubin NVL144 packt 8 Exaflops AI-Compute und 100TB Memory in einen einzigen Rack, Vollproduktion H2 2026.
- Hyperscaler verbrennen $630 Milliarden Capex im Jahr 2026, 75 Prozent davon AI, der China-Markt wurde komplett abgeschrieben.
- Wer heute deployt, baut auf Hardware die in zwölf Monaten im Inferenzpreis pro Token zehnfach besser dastehen wird als deine aktuelle Cloud-Rechnung.
Letzte Aktualisierung: 2026-05-09 | Lesezeit: 9 Min
Henrik Bauer steht an einem Mittwochmorgen Anfang Mai 2026 vor einem leeren Stahlgerüst in einem Frankfurter Datacenter. 600 Kilowatt sollen hier rein. Sein Bestandsschrank zieht 30. Wir reden nicht über mehr Compute. Wir reden über eine andere Disziplin.
Henrik leitet die Capacity-Planung bei einem Sovereign-Cloud-Anbieter im Frankfurter Metro-Cluster. Sein Team hatte das Gebäude für Hopper-Generation ausgelegt. Drei Jahre Vorlauf. Beton, Stromzuführung, Chilled-Water-Loops, alles geplant. Jetzt liest er das Rubin-Datenblatt und merkt: das Gebäude muss neu gerechnet werden.
Was hier verhandelt wird, ist nicht eine bessere GPU. Es ist die Verschiebung der Datacenter-Ökonomie auf eine Achse, die keine deutsche Stadtwerk-Statik mehr greift. Und die Frage, ob du als Agentur, Mittelständler oder Kanzlei in den nächsten zwölf Monaten auf einer Hardware-Generation arbeitest, die zur Abrechnung dreimal so teuer ist wie der nächste Schrank im selben Building.
Vera Rubin presst ein Hopper-Datacenter in einen Schrank
Der NVL144 schafft 8 Exaflops AI-Performance pro Rack. 100 Terabyte schneller Speicher. 1,7 Petabyte pro Sekunde Memory-Bandbreite. Zum Vergleich: ein einzelner GB300 NVL72-Rack, erst seit 2025 in der Breite verfügbar, liefert 1,1 Exaflops. Rubin liegt bei knapp dem 7-fachen, in der gleichen Stahlbox.
Das ist die Headline-Zahl. Spannender ist was darunter liegt. NVIDIA hat das Vera-Rubin-Programm um sechs Monate vorgezogen. Foxconn hat die Engineering-Validation für die NVL144-MGX-Liquid-Cooled-Racks abgeschlossen, Massenproduktion läuft an. AWS, Google Cloud, Microsoft Azure und OCI sind die ersten Cloud-Anbieter mit allokiertem Volumen für H2 2026. Microsoft hat Anfang Mai das erste NVL72-System in Wisconsin angeschaltet, Fairwater-AI-Superfactory.
Du wirst nicht morgens entscheiden, ob du Rubin nutzt. Deine Cloud-API entscheidet das für dich. Im November läuft dein Token-Stack auf Blackwell. Im April auf Rubin. Der Preis fällt. Die Latenz halbiert sich. Du merkst es nur an der Rechnung.
Der größte Markt der Welt fällt weg, NVIDIA wächst trotzdem
Hier ist die Stelle wo die Story interessant wird. NVIDIA hat den chinesischen Markt verloren. Komplett. Jensen Huang sagte im April: zero percent market share. Die H20-Exportkontrollen kosteten allein im Q1 $4,5 Milliarden Inventory-Write-Off, in Q2 weitere $8 Milliarden Revenue-Loss.
Trotzdem rast die Maschine weiter. Q1 FY26 zeigte 69 Prozent Year-over-Year-Wachstum. Datacenter-Revenue allein war größer als der gesamte China-Markt vor zwei Jahren. NVIDIA bestätigt $500 Milliarden GPU-Umsatz-Pfad bis Ende 2026 als realistisches Ziel.
Wie geht das? Die Big Four haben ihre 2026-Capex-Pläne im Februar veröffentlicht. Amazon $200 Milliarden, Google $185 Milliarden, Microsoft $120 Milliarden, Meta $115 Milliarden. Total $630 Milliarden, ein Plus von 62 Prozent zum 2025-Rekord. Drei Viertel davon fließen direkt in AI-Compute. Die chinesische Lücke ist absorbiert, bevor sie ein Loch geworden ist.
Der Antagonist gegen diese Story sitzt in München. Florian Schaake, IT-Risk-Berater für mittelständische Banken, sagt: "Wenn drei Hyperscaler 65 Prozent eines $1,5-Billionen-AI-Capex-Markts schultern und ihr Forecasting falsch liegt, hast du 2027 einen Stranded-Asset-Wahnsinn der die Dotcom-Blase wie einen Aufwärmer aussehen lässt." Das ist der Steelman.
Die Hardware-Kurve ist steiler als die Software-Kurve
Die wichtigere Beobachtung kommt von Jensen selbst und wird kaum diskutiert. Blackwell senkte den Cost-per-Million-Tokens um Faktor 15 gegenüber Hopper. Rubin liefert nochmal 40 Prozent mehr Performance als Blackwell. Die Hardware-Kurve hat sich seit 2023 alle 18 Monate gegenüber dem Software-Stack verzehnfacht.
Der GPT-4-Launch lag bei $60 pro Million Output-Tokens. Heute zahlst du Bruchteile eines Cents für vergleichbare Modelle. Der Faktor ist 280 in zwei Jahren. Modelle ziehen nicht nach. Die meisten produktiven Workloads laufen auf Architektur-Patterns, die schon Hopper-Hardware nicht ausreizten.
Du kannst das auf einer einzigen Achse sehen. Im H100-Markt bei AWS sind die Spotpreise von $7 pro Stunde 2024 auf $1.49 bei Spezial-Anbietern wie Hyperbolic gefallen. Bei Rubin-Volumen wird Inference-Compute zur Commodity, nicht zum Investitionsgut.
600 Kilowatt pro Schrank ist keine Erweiterung. Es ist ein Neubau.
Henrik in Frankfurt rechnet vor. Sein bestehendes Rack zieht 30 kW. Vera Rubin Standard NVL144 liegt bei 120-130 kW. Rubin Ultra NVL576 in der Kyber-Architektur, kommend 2027, zieht 600 kW pro Rack. Das entspricht der Heizleistung von rund 160 deutschen Einfamilienhäusern, in einer einzigen Stahlbox.
Air-cooled Rubin gibt es nicht. Direkt-zu-Chip-Liquid-Cooling ist mandatory. 45 Grad Celsius Inlet, 800 Volt DC für Power-Delivery, neue Substations mit industrieller Auslegung. Henrik braucht für sein Building einen Strukturingenieur weil die Bodenplatten nicht für die Lasten ausgelegt sind. Die Kabelschacht-Kapazitäten reichen nicht. Die Ankabelung der Hochspannungs-Stadtwerke wird zur 18-Monats-Negotiation.
Das ist nicht ein Datacenter-Upgrade. Es ist ein neuer Building-Type. Und er entsteht parallel in Wisconsin, Atlanta, Dublin, Quincy. Frankfurt fehlt auf der Liste. München fehlt. Berlin fehlt.
Drei Welten kollidieren auf demselben Rack
Für Solo-Selbstständige und kleine Agenturen
Du wirst Rubin nie anfassen. Du wirst auf Cloud-APIs zugreifen, die Rubin im Backend haben. Was sich ändert: dein Token-Preis halbiert sich nochmal in 12 Monaten, deine Latenz fällt unter 100 Millisekunden für Long-Context-Workloads, und Modelle die du heute aus Kostengründen nicht in Production nutzt werden ab Q4 2026 günstiger als deine Slack-Lizenz.
Konkret heißt das: AI-Agents in der eigenen Pipeline werden 2027 das Default. Lisa Becker, Marketing-Lead in München, hat mir erzählt dass ihr 6-Personen-Team mit Claude-Sonnet-Pipelines aktuell 60 Prozent der Content-Output eines konkurrenzierenden 18-Personen-Teams liefert. Bei Rubin-Inference-Preisen wird sie auf Opus-Niveau-Modelle jeden Schritt automatisieren. Ihre fünf Junior-Stellen werden nicht ausgeschrieben.
Für mittelständische Profis und Inhouse-Teams
Ihr habt eine zwölfmonatige Window-of-Opportunity. Wer jetzt seine Daten-Pipelines, RAG-Architekturen und Agent-Workflows bauen lässt, hat zur Rubin-Welle eine Production-Infrastruktur die mit dem Cost-Drop skaliert. Wer wartet bis die Modelle "perfekt" sind, kommt 2027 mit drei Quartalen Rückstand und zahlt Premium für die gleiche Pipeline die Frühadopter bereits abgeschrieben haben.
Praktisch: GPU-Allokation bei AWS Bedrock und Azure OpenAI wird in H2 2026 Mangelware. Wer ohne Reservation deployt, sitzt im Spot-Markt mit 4x Volatilität. Vorab-Verhandlungen mit Cloud-Vertretern werden in Q3 zur Pflicht.
Hot-Take für die DACH-Souveränen-Cloud-Story
Die deutsche Sovereign-Cloud-Bewegung steht vor einem ehrlichen Problem. Die kritische Masse für Vera-Rubin-Allokation läuft in den USA und in zwei nordeuropäischen Sites. Wer in Frankfurt einen 600-kW-Rack-Cluster hochziehen will, hat keine Stromzuführung, keine Wasser-Cooling-Loop-Genehmigungen und keine Bauordnung die das in unter 24 Monaten erlaubt.
Das heißt nicht dass DACH verliert. Es heißt dass Sovereign-Cloud 2026/27 nicht über Inference-Skala gewonnen wird, sondern über GDPR-Layer, Daten-Lokalisierung und Edge-Compute. Wer das nicht verinnerlicht, verkauft Henrik in Frankfurt eine Story, die seine Buchhaltung in 18 Monaten kaltstellt.
Henrik hat mir am Telefon einen Satz gesagt der hängenblieb
Wir telefonierten Anfang Mai. Henrik beschrieb die Capacity-Sitzung der Vorwoche. Sein CFO hatte gefragt warum der Standort-Plan plötzlich um 40 Prozent teurer wird. Henrik antwortete mit dem Datasheet. Der CFO blätterte fünf Minuten. Dann sagte er einen Satz, den Henrik nicht vergessen konnte.
"Ich habe 25 Jahre Datacenter gebaut. Ich verstehe alles in diesem Dokument. Aber ich verstehe nicht mehr, ob wir das Geschäft sind oder die Stromrechnung."
Das ist keine Tech-Geschichte. Es ist eine Geschichte über eine Industrie, die sich gerade in der Mitte halbiert. Die Größenordnungen verschieben sich nicht inkrementell. Sie kippen. Und wer sie nicht mit-kippt, sitzt drei Monate später nicht in einem schwächeren Markt sondern in einem anderen.
Was du jetzt tun kannst
-
Cloud-Anbieter-Strategie in Q3 2026 reviewen. Wer keine Vera-Rubin-Allokation hat, fällt im Inference-Pricing 2027 zurück. AWS Bedrock, Azure OpenAI, Google Vertex AI sind die Tier-1-Optionen. Specialized-Provider wie Hyperbolic, Together AI, Modal für Spot-Workloads als Tier-2.
-
Token-Budget-Reviews monatlich. Wer 2024 ein Modell für $60/Million-Tokens kalkuliert hat, läuft 2026 mit derselben Architektur unter $1. Dein Pricing-Modell muss das Lever-Effekt aufnehmen, nicht dein CFO als Rabatt erleben.
-
Long-Context-Workflows ab Q4 testen. Rubin CPX zielt explizit auf Million-Token-Context-Windows in Production. Ganze Vertragswerke, kompletter Codebase-Kontext, vollständige Customer-History in einem einzigen API-Call. Das ändert RAG-Architekturen fundamental.
-
Agent-Workflows priorisieren. Bei Rubin-Inference-Kostenniveau wird der ROI-Schwellenwert für Multi-Step-Agents von "lohnt sich für Hochpreis-Aufgaben" auf "lohnt sich für jeden Tool-Call" verschoben.
-
Data-Locality-Strategie schärfen. Wenn DACH-Sovereign-Cloud nicht auf Inference-Skala konkurrieren kann, muss die Velmoy-Story über Datenlokalisierung, Edge-Compute und GDPR-Layer laufen. Verkaufst du Skala oder Souveränität?
Caveats
Die Hardware-Roadmap ist NVIDIA-zentrisch. AMD MI400, Google TPU v7 und Custom-Silicon der Hyperscaler werden 2026/27 alternative Pfade öffnen. Die $500-Milliarden-NVIDIA-Forecast hängt an einer Annahme exklusiver GPU-Dominanz, die in zwei Jahren nicht garantiert ist.
Vera Rubin ist Stand Mai 2026 in Engineering Validation, nicht im Endkunden-Deployment. Die ersten produktiven Workloads laufen ab Q4 2026 bei Microsoft Azure Fairwater-Sites, breitflächiger AWS-Roll-out ab Q1 2027.
Die Zahlen für Hyperscaler-Capex sind Plan-Werte, keine bestätigten Investitionen. Bei einer Demand-Korrektur in H2 2026 kann das Volumen um 20-30 Prozent schrumpfen.
Häufig gestellte Fragen
Was ist der NVIDIA Vera Rubin NVL144 genau?
Der NVL144 ist NVIDIAs Rack-Scale-Plattform für H2 2026, mit 144 GPU-Dies, 8 Exaflops AI-Performance, 100TB Speicher und 1,7 PB/s Memory-Bandbreite. Er ist der Nachfolger des GB300 NVL72 und 7-fach leistungsfähiger als ein Blackwell-Ultra-Rack.
Wann ist Vera Rubin verfügbar?
Volume-Production startet H2 2026. Microsoft Azure hat das erste NVL72-System Anfang Mai 2026 in Wisconsin angeschaltet. AWS, Google Cloud und OCI haben Allokation für Q4 2026 bestätigt. Endkunden-API-Zugriff ist für ausgewählte Workloads ab November 2026 zu erwarten.
Warum ist Liquid-Cooling Pflicht bei Rubin?
Eine einzelne Rubin-GPU zieht 1.800 bis 2.300 Watt gegenüber 1.000 Watt bei Blackwell. Air-Cooling kann diese Wärmedichte physikalisch nicht abführen. Direct-to-Chip-Liquid-Cooling mit 45-Grad-Inlet-Spec ist mandatory.
Was kostet Vera-Rubin-Inference-Compute pro Million Tokens?
Konkrete Pricings sind noch nicht veröffentlicht. NVIDIA-eigene Benchmarks zeigen 15x Reduktion gegenüber Hopper bei Blackwell, Rubin nochmal 40 Prozent zusätzliche Performance. Realistische Schätzung: $0,10 bis $0,30 pro Million-Output-Tokens für Standard-Modelle in H1 2027 bei großen Hyperscalern.
Wieviel Capex investieren Hyperscaler 2026 in AI?
Amazon, Google, Microsoft und Meta zusammen $630 Milliarden, ein Plus von 62 Prozent gegenüber 2025. Etwa 75 Prozent davon fließen direkt in AI-Compute-Infrastruktur, der Rest in Stromnetze, Cooling-Systems und Substations.
Hat NVIDIA durch Exportkontrollen den China-Markt komplett verloren?
Stand Mai 2026 ja. Jensen Huang sagte im April zero percent market share. Q1 kostete $4,5 Milliarden Inventory-Loss, Q2 weitere $8 Milliarden Revenue. NVIDIA hat den Markt strategisch abgeschrieben.
Was bedeutet Rubin für DACH-Sovereign-Cloud-Provider?
Rubin-Allokation läuft primär in US-Hyperscaler-Sites und zwei nordeuropäischen Standorten. Frankfurt, München und Berlin haben Stand 2026 keine 600-kW-Rack-Infrastruktur. DACH-Sovereign-Cloud muss sich strategisch über GDPR-Layer und Edge-Compute differenzieren, nicht über Inference-Skala.
People Also Ask
Was bedeutet Vera Rubin NVL144 für deutsche Unternehmen? Vera Rubin NVL144 senkt Token-Inference-Kosten in 12 Monaten um Faktor 10. Deutsche Unternehmen mit Cloud-AI-Stacks bekommen automatisch tiefere Preise wenn ihre Anbieter (AWS, Azure, GCP) auf Vera-Rubin migrieren. Wer 2026 langfristige Capex-Investments in eigene GPU-Cluster macht, riskiert Obsoleszenz in 18 Monaten. Cloud-First-Strategie bleibt rational.
Wie wirkt sich der 630-Milliarden-Capex auf den Mittelstand aus? Hyperscaler-Capex von 630 Mrd Dollar bedeutet für den Mittelstand: kontinuierliche Performance-Gewinne ohne eigene Investitionen. Cloud-Inference-Kosten fallen 50 bis 70 Prozent in 18 Monaten. Strategie: keine eigenen GPU-Cluster, sondern API-First. Self-Hosting nur ab 5 Milliarden Tokens monatlich rentabel. Hedge auf mehrere Cloud-Provider via Routing-Layer.
Welche Risiken bringt die Hardware-Konsolidierung? Drei Hauptrisiken. NVIDIA-Monopol erlaubt Vendor-Preis-Diktat, GPU-Supply-Engpässe bei Spike-Demand, geopolitische Brüche bei China-Markt-Cut-off (bereits 2026 vollständig abgeschrieben). Hedging: AMD MI400-Serie als Alternative, INTEL Gaudi-3 für CPU-zentrische Inference, Self-Hosted Mixtral statt Vendor-Lock auf US-Modelle.
Wann sollten Unternehmen Hardware-Strategie überprüfen? Sofort. Vera Rubin H2 2026 macht Capex-Investments in Hopper-H100 ab Q3 2026 wirtschaftlich riskant. Neue GPU-Cluster nur für Self-Hosting ab 5 Mrd Tokens monatlich oder mit Compliance-Pflicht für vollständige Sovereignty. Sonst Cloud-First mit Routing-Layer und Quarterly-Review der Cloud-Preise.
Welche Alternativen zu NVIDIA-Hardware gibt es? AMD MI400-Serie (kompatibel mit ROCm-Stack, weniger Software-Reife), Intel Gaudi-3 (Habana, B2B-fokussiert), Google TPU (nur via Vertex AI), Cerebras WSE-3 (Wafer-Scale, ultra-spezial). Für DACH-Mid-Market: Cloud-API-First, keine eigenen GPU-Investments außer bei klarem Sovereignty-Mandat oder Volumen über 5 Mrd Tokens monatlich.
Was kostet ein Vera-Rubin-Rack in der Praxis? NVIDIA hat den NVL144-Preis nicht öffentlich gemacht, Marktschätzungen liegen bei 2,5 bis 4 Mio Dollar pro Rack inklusive Storage und Networking. Plus 250-400K Dollar pro Jahr für Strom und Cooling. Cloud-Inference-Alternative: gleiche Capacity über AWS Bedrock oder Anthropic-EU ab 50-200K Dollar pro Monat ohne Capex-Risiko.
Wer ist von der Hardware-Konsolidierung am stärksten betroffen? Hyperscaler (Capex-Pressure), Tier-2-Cloud-Provider (Wettbewerbs-Druck), Konzerne mit eigenen GPU-Investments (Obsoleszenz-Risiko), AI-Startups mit eigener Hardware-Strategie. Mittelständler mit Cloud-First-Strategie sind sekundär betroffen weil sie automatisch von Vendor-Updates profitieren ohne eigene Capex.
Wie startet man eine 2026-Hardware-Strategie? Drei-Schritt-Plan. Token-Verbrauch pro Monat messen (entscheidend für Cloud vs Self-Hosting), Cloud-Provider auf Vera-Rubin-Roadmap pinnen (AWS, Azure, GCP, Anthropic-EU), Routing-Layer (LiteLLM oder OpenRouter) einbauen damit Anbieter-Wechsel reversibel bleibt. Setup-Zeit: 1 bis 3 Wochen.
Zitieren als
APA: Velichko, M. (2026, Mai 27). 8 Exaflops im Rack: Vera Rubin frisst die Mitte. Velmoy AI/Agency. https://velmoy.com/pursuit/human/exaflop-ai-performance-rack
BibTeX:
@misc{velmoy2026exaflop_h,
author = {Velichko, Max},
title = {8 Exaflops im Rack: Vera Rubin frisst die Mitte},
year = {2026},
month = {Mai},
url = {https://velmoy.com/pursuit/human/exaflop-ai-performance-rack}
}
Frag eine KI
"Lies https://velmoy.com/pursuit/human/exaflop-ai-performance-rack und fasse die 5 wichtigsten Erkenntnisse für einen DACH-Entscheider zusammen."
"Welche konkreten Maßnahmen aus 8 Exaflops im Rack sollte ich in den nächsten 30 Tagen umsetzen?"
Als Markdown herunterladen
Für LLM-Ingestion: Plain-MD-Version
Weiterführende Quellen
- NVIDIA Newsroom: Rubin CPX Announcement. Original-Spec mit 8 Exaflops, 100TB, 1,7 PB/s, 2026
- Tom's Hardware: Vera Rubin Platform Deep-Dive. Power-Profile und Architektur, 2026
- Microsoft Azure Blog: Fairwater Vera Rubin Deployment. Erstes Hyperscaler-Deployment, Mai 2026
- DCD: Rubin Ultra NVL576 600kW. Power-Density-Roadmap, 2025
- NVIDIA Blog: Cost per Token Economics. Inference-Ökonomie und Hopper-zu-Blackwell-Reduktion
- Datacenter Richness: Hyperscaler Capex 2026. $630 Mrd Capex-Plan, Februar 2026
- Manufacturing Dive: NVIDIA Q1 FY26 Earnings. China-Loss-Quantifizierung
- Introl Blog: Inference Unit Economics. Cost-per-Million-Tokens-Modell
Mehr lesen
- AI-Version dieses Posts. die kondensierte technische Reference mit Glossary, Pricing-Tabelle und 7-Sektionen-FAQ
- Velmoy Pillar: AI Datacenter Economics für DACH. wo Capex, Power-Density und Sovereign-Cloud-Strategie zusammenlaufen
Henrik in Frankfurt hat im selben Telefonat noch gesagt: "Ich kaufe nicht mehr Compute. Ich kaufe Strom mit einem Chip drin." Wer das ernstnimmt, baut die nächsten zwölf Monate anders.
Für die neuesten AI-News folg mir gerne rein.
Über die Autoren: Velmoy AI/Agency Berlin. Wir bauen Production-AI-Pipelines für DACH-Mittelstand und Agenturen. Wenn deine Cloud-Strategie für die Rubin-Welle steht, sprechen wir gerne in einem 30-Minuten-Call darüber.
Velmoy · Berlin
Lass uns dir einen Custom AI Agent bauen.
Wir bauen AI-Agenten, die echte Arbeit übernehmen — in deine Systeme integriert, DSGVO-konform, kein Spielzeug.
Topics · Keywords
Weiterlesen
Mehr aus dem Blog.
Website Tipps & TricksMuss meine Website barrierefrei sein? BFSG 2025
Das Barrierefreiheitsstärkungsgesetz gilt seit 28. Juni 2025. Wen es betrifft, was WCAG 2.1 AA bedeutet, welche Bußgelder drohen und was die Umsetzung kostet.
Website Tipps & TricksGoogle-Ranking verbessern: Was wirklich zählt
Wie Sie das Google-Ranking Ihrer Website gezielt verbessern – von technischen Must-Haves bis Content-Strategie. Praxisnah, ohne SEO-Kauderwelsch.
Website Tipps & TricksLohnt sich eine teure Website wirklich?
Lohnt sich eine professionelle Website? ROI-Rechnung, Amortisationszeit und ehrliche Zahlen — bevor Sie die Entscheidung treffen.