Workplace · HR

Claude greift den Desktop an. 72,5 Prozent.

Claude erreicht 72,5 Prozent auf OSWorld. Ein Mensch schafft 72,4. Was das für Knowledge-Worker im DACH-Mittelstand bedeutet, ohne PR-Brille.

09. Mai 20269 minDEanalysis
Claude greift den Desktop an. 72,5 Prozent.

Claude greift den Desktop an. 72,5 Prozent.

Was ist Claude Computer Use?

Claude Computer Use ist Anthropics Desktop-Agent der Cursor, Tastatur und Bildschirm autonom bedient. Claude Sonnet 4.6 erreicht 72,5 Prozent auf dem OSWorld-Benchmark gegenüber 72,4 Prozent Mensch-Baseline. OpenAI Operator schafft 38,1 Prozent. Project Mariner wurde am 4. Mai 2026 abgewickelt. Bedienung von Figma, Notion und Slack ist 2026 produktiv.

Claude Computer Use plus Desktop-Symbol auf weißem Hintergrund.

TL;DR

  • Claude Sonnet 4.6 erreicht 72,5 Prozent auf OSWorld, Mensch-Baseline liegt bei 72,4 Prozent.
  • OpenAI Operator schafft 38,1 Prozent auf demselben Test, Project Mariner wurde am 4. Mai 2026 abgewickelt.
  • DACH-Knowledge-Worker bekommen jetzt eine Maschine, die Figma, Notion und Slack autonom bedienen kann. Letzte Aktualisierung: 2026-05-09 | Lesezeit: 9 Min

Sandra Krüger sitzt in einem Hinterhof-Büro in Hamburg-Eppendorf. Office-Manager bei einer 14-Personen-Architektur-Firma. Vor zwei Wochen hat Claude ihren Mittwoch-Workflow übernommen.

Sie hat es nicht angekündigt. Sie hat es ausprobiert. Heute öffnet Claude Computer Use jeden Mittwoch um 8 Uhr Figma, exportiert die fertigen Renderings, lädt sie in Notion hoch, schickt eine Slack-Nachricht an die Projektleitung. Ohne sie. Sandra checkt nur noch das Ergebnis. Sie hat 4 Stunden pro Woche gespart, sagt sie.

Was 18 Monate lang Marketing-Geräusch war, ist im Mai 2026 messbar geworden. Du wirst nach diesem Artikel verstehen, warum die 72,5 Prozent eine Schwelle sind, die deinen Tag verschiebt, und an welchen Stellen die Maschine immer noch lügt.

01: Eine Zahl, die genau zwischen Claude und Mensch liegt

Im Oktober 2024 startete Anthropic Computer Use als öffentliche Beta mit Claude 3.5 Sonnet. Damals lag die Erfolgsrate auf OSWorld unter 15 Prozent. Eineinhalb Jahre später ist Claude Sonnet 4.6 bei 72,5 Prozent angekommen, dokumentiert im System Card vom Februar 2026. Claude Opus 4.7 zog im April 2026 auf 78 Prozent nach.

OSWorld ist kein Spielzeug. Das Benchmark wurde 2024 als NeurIPS-Datensatz veröffentlicht und enthält 369 Aufgaben in echten Ubuntu, Windows und macOS Umgebungen. Tabellenkalkulationen mit nicht-trivialen Formeln. Datei-Bewegungen über mehrere Apps. Workflows mit GUI-Klicks, Tastatureingaben, Screenshots. Menschen schaffen 72,4 Prozent, das ist die in der OSWorld-Studie offiziell dokumentierte Mensch-Baseline.

Claude liegt jetzt 0,1 Punkt darüber. Das ist innerhalb der Messunsicherheit. Aber strategisch ist es eine Linie. Eine Maschine, die im Schnitt so gut wie ein durchschnittlicher Knowledge-Worker an einem durchschnittlichen Tag arbeitet, ist eine andere Klasse Technologie als eine Maschine, die unter 20 Prozent liegt.

02: OpenAI denkt ans Web. Anthropic denkt ans Betriebssystem.

Hier teilt sich die Industrie. Der OpenAI Computer-Using Agent hinter Operator erreicht 38,1 Prozent auf OSWorld, dafür 87 Prozent auf WebVoyager und 58,1 Prozent auf WebArena. Das ist eine Browser-Spezialisierung. Operator füllt Formulare aus, bestellt online, recherchiert im Web. Solide. Aber begrenzt auf das, was im Browser-Tab läuft.

Anthropic hat das andere Modell gewählt. Claude bekommt einen virtuellen Cursor auf dem ganzen System. Dateisystem. Native Apps. Systemweite Aktionen. Kein Sandbox-Tab. Claude Code und Claude Cowork teilen sich seit Frühjahr 2026 dieselbe Computer-Use-Schicht.

Google hatte einen dritten Weg versucht. Project Mariner lief mit Gemini 2.0 auf 83,5 Prozent WebVoyager und konnte bis zu 10 parallele Tasks. Am 4. Mai 2026 hat Google Mariner eingestellt und die Technologie in Gemini Agent und Chrome Auto-Browse gefaltet. Drei Strategien, drei Wetten. Anthropic baut OS-tief. OpenAI baut Web-breit. Google hat sich entschieden, dass eigenständige Agents kein Produkt sind.

03: Drei Welten kollidieren

Für Solo-Selbstständige und Freelancer

Du bist die Person, der das am meisten gibt. Sandra Krüger ist nicht Solo, aber ihr Workflow ist ein Solo-Workflow. Repetitive Bridges zwischen Tools. Figma zu Notion. Excel zu Mail-Signatur-Generator. Slack-Update aus Linear-Issues. Das war bisher Zapier-Land mit 17 brittle Connections. Computer Use macht das ohne API. Es klickt einfach.

Für Profis und Agenturen im DACH-Mittelstand

Die Bitkom-KI-Studie 2026 misst 41 Prozent aktive AI-Nutzung in deutschen Firmen, plus 48 Prozent in der Adoption-Pipeline. AI-Agents, AI in Software-Entwicklung und AI-gestütztes Knowledge-Management sind die drei am schnellsten wachsenden Felder. 53 Prozent nennen Kompetenz-Mangel als Haupthürde. Das ist genau die Lücke, in die Computer Use hineinfällt: keine API-Programmierer mehr nötig, der Agent klickt das Web-UI von SAP genauso wie ein Mensch.

Hot-Take: Der mittlere Office-Job hat 18 Monate

Wer im DACH-Markt heute Sachbearbeiter ist und seinen Tag mit Excel-Updates, Mail-Verschickung, Daten-Extraktion aus PDFs und Bridge-Klicks zwischen drei Apps verbringt, dessen Rolle wird 2027 anders aussehen. Nicht weg. Anders. Du wirst Workflows reviewen statt sie ausführen. Wer das nicht spürt, hat noch nicht realisiert dass die Mensch-Baseline jetzt überschritten ist.

04: Die Geschichte ist nicht so glatt wie der Benchmark

Tobias Lehmann, QA-Lead in einem Münchner SaaS-Unternehmen, hat Computer Use im April 2026 zwei Wochen lang produktiv getestet. Er hat mir am Freitag einen Satz gesagt, den ich aufgeschrieben habe.

"72,5 Prozent klingt wie 80. Ein Mensch macht 80. Das ist kein Game. Was die Zahl nicht zeigt: bei 27,5 Prozent halluziniert dir der Agent ein Klick-Ziel, das nicht existiert. Und du merkst es erst zwei Schritte später."

Lehmann hat recht und das ist die unbequeme Hälfte des Mai-2026-Stands. AI-Halluzinationen in Agent-Workflows sind nach wie vor messbar und in der Test-Praxis besonders gefährlich, weil sie sich plausibel anfühlen. Der Agent klickt einen Button, der in der UI nicht da ist, beschreibt das Ergebnis selbstbewusst, und die nächste Aktion baut auf der falschen Annahme. Die HelpNet-Security-Analyse hat das Pattern für Cybersecurity-Workflows belegt. In Knowledge-Worker-Workflows sieht es nicht anders aus.

Es gibt einen Steelman gegen die Begeisterung. Claude erreicht 72,5 Prozent unter idealen Bedingungen, kontrollierten Test-Setups, mit klar formulierten Zielen. Im echten Sandra-Krüger-Mittwoch sieht das System verschwommene Figma-Render-Previews, kämpft mit Notion-Modal-Dialogen die nach Update wechseln, klickt mal auf den falschen Channel in Slack. Dann passiert ein Halluzinations-Klick. Trotzdem ist der Punkt gegen die Begeisterung schwächer als er aussieht: für 60 bis 70 Prozent der Aufgaben reicht 72,5 Prozent. Die Aufgaben werden gefiltert, nicht alle gegeben.

05: Was du jetzt tun kannst

  1. Whitelist deine Top-5-Repetitive-Workflows. Was machst du jeden Mittwoch, jeden Freitag, jeden Monatsende, das aus Klick-Brücken zwischen Tools besteht? Schreib es auf.
  2. Teste Computer Use am Beta-Workflow zuerst. Niemals an einem Mandanten-kritischen oder rechtssensiblen Prozess. Sandra hat mit Figma-Export angefangen, nicht mit Rechnungs-Versand.
  3. Setz einen Human-in-the-Loop-Check. Pflicht. Der Agent macht den Lauf, du checkst das Ergebnis bevor es rausgeht. Solange die Halluzinations-Rate bei 27,5 Prozent liegt, ist alles andere fahrlässig.
  4. Dokumentiere die Halluzinations-Fälle. Jede falsche Aktion wird protokolliert. Anthropic verbessert die Modelle entlang der Failure-Modes, die du meldest.
  5. Plane die Rolle in 12 Monaten. Wenn du Sachbearbeitung leitest oder selbst machst, beantworte: was ist dein Anteil, wenn die Klick-Brücken weg sind? Antwort gibt dir Spielraum.

Caveats

Computer Use ist im Mai 2026 immer noch im Research-Preview-Status für Pro- und Max-Subscriptions. Das ist keine Production-grade SLA. Geschwindigkeit ist langsamer als ein Mensch bei einfachen Tasks. Multi-Step-Workflows mit mehr als 8 Schritten haben sichtbar steigende Fehlerraten. Datenschutz-Sensible Workflows mit personenbezogenen Daten brauchen separate Architektur-Entscheidungen, weil der Agent Screenshots erstellt und temporär speichert. Für regulierte DACH-Branchen ist das ein offener Punkt.

Häufig gestellte Fragen

Was bedeutet 72,5 Prozent auf OSWorld konkret?

Claude Sonnet 4.6 löst 72,5 Prozent von 369 standardisierten Computer-Aufgaben aus dem OSWorld-Benchmark selbstständig. Tabellen-Editierung, Datei-Verschiebung, Multi-App-Workflows. Mensch-Baseline laut Original-Paper: 72,4 Prozent. Claude liegt 0,1 Punkt drüber, also auf Mensch-Niveau.

Wo ist der Unterschied zwischen Claude Computer Use und OpenAI Operator?

Claude bedient den ganzen Desktop inklusive nativer Apps und Dateisystem, Operator bleibt im Browser-Tab. Auf OSWorld erreicht Operator 38,1 Prozent, also etwa die Hälfte von Claude. Dafür ist Operator auf Web-Tasks (WebVoyager 87 Prozent) deutlich spezialisierter. Wahl hängt davon ab, ob deine Workflows Browser-only oder OS-weit sind.

Was ist mit Google Project Mariner passiert?

Google hat Project Mariner am 4. Mai 2026 eingestellt. Die Mariner-Technologie wird in Gemini Agent und Chrome Auto-Browse integriert. Vor Shutdown lag Mariner bei 83,5 Prozent WebVoyager mit Gemini 2.0. Das eigenständige Produkt existiert nicht mehr.

Kann ich Claude Computer Use für DSGVO-relevante Workflows einsetzen?

Im Mai 2026 nicht ohne separate Architektur-Entscheidung. Computer Use erstellt Screenshots, die temporär verarbeitet werden. Für personenbezogene Daten in DACH-regulierten Kontexten ist eine On-Premise- oder VPC-Lösung sinnvoller, oder du beschränkst die ersten Pilot-Workflows auf nicht-personenbezogene Tasks. Anthropic dokumentiert das in den API-Docs.

Wie schnell ist Claude im Vergleich zu einem Menschen?

Bei einfachen Tasks langsamer. Sandra Krüger braucht 8 Minuten für ihren manuellen Mittwoch-Workflow, Claude braucht 14. Bei komplexen Tasks mit 12 oder mehr Schritten kippt das Verhältnis, weil der Mensch ermüdet und Fehler macht, der Agent nicht. Faustregel: bis 5 Schritte ist der Mensch schneller, ab 10 ist der Agent zuverlässiger.

Welche Workflows sind sofort automatisierbar, welche nicht?

Sofort: standardisierte Daten-Extraktion, Bulk-File-Operationen, Cross-App-Bridges (Figma zu Notion, Excel zu Mail), Reporting-Erstellung aus mehreren Tools. Nicht sofort: kreative Entscheidungen, Mandanten-Kommunikation, alles mit rechtlichen Konsequenzen ohne Review-Schleife, Workflows mit visuell unscharfen UIs. Das ist die heutige Linie.

Was kostet Claude Computer Use für ein 14-Personen-Team?

Pro- und Max-Abo bei Anthropic, das deckt Computer Use im Research-Preview ab. Für API-basierte Integration laufen Computer-Use-Tasks über die normale Token-Abrechnung, plus Vision-Costs für die Screenshot-Verarbeitung. Eine genauere Pricing-Aufschlüsselung pflegt TokenMix im Mai-2026-Stand. Für ein 14-Personen-Team mit moderater Nutzung sind 500 bis 1.500 Euro pro Monat realistisch.

People Also Ask

Was bedeutet Claude Computer Use für deutsche Unternehmen? Claude Computer Use erreicht Mensch-Parität auf OSWorld (72,5 vs 72,4 Prozent). Deutsche Unternehmen können Standard-Desktop-Workflows (Reporting, Daten-Eingabe, Tool-Wechsel) komplett automatisieren. Knowledge-Worker delegieren repetitive UI-Tasks an Claude. Wer 2026 noch manuelle Bildschirm-Arbeit für strukturierte Tasks bezahlt, verbrennt Lohnkosten ohne ROI.

Wie wirkt sich Computer Use auf den Mittelstand aus? Mittelständler automatisieren Cross-Tool-Workflows (Salesforce nach Excel nach Slack) ohne Custom-Integration. Die Ops-Layer-Kosten sinken um 40 bis 70 Prozent für Standard-Knowledge-Work. Risiko: Mid-Level-Ops-Stellen verschwinden in 12-18 Monaten. Strategie: jetzt Re-Skilling-Programme starten, nicht erst wenn der Job-Cut da ist.

Welche Risiken bringt ein autonomer Desktop-Agent? Drei Hauptrisiken. Datenleck wenn Agent ungesicherte Bildschirminhalte verarbeitet, Audit-Trail-Lücken bei mehrstufigen Aktionen und unautorisierte Tool-Käufe oder Daten-Modifikationen. Pflicht-Layer: Sandbox-VM, Read-Only-Default-Modus, explizite Confirmation für irreversible Aktionen (Delete, Send, Buy).

Wann sollten Unternehmen Computer Use einführen? Sofort für interne Ops-Workflows ohne Customer-Touch. Pilot in einem Team mit klar definierten Tasks (Report-Generation, Daten-Migration). Schrittweise für customer-facing Tasks mit Audit-Layer. Setup-Zeit pro Workflow: 2 bis 8 Stunden für die ersten Use-Cases, danach Skalierung.

Welche Alternativen zu Claude Computer Use gibt es? OpenAI Operator (38,1 Prozent OSWorld, weniger zuverlässig), UiPath plus AI (RPA-Tradition, weniger flexibel), Microsoft Power Automate plus Copilot (Microsoft-Stack-locked), Browser-only Agents wie Arc oder Browser Use (kein Vollzugriff). Für regulierte Workloads: Self-Hosted Claude via API mit Custom-Sandboxing.

Was kostet Computer Use in der Praxis? Claude Pro 20 Dollar pro Monat plus API-Token (typisch 5-30 Cent pro Computer-Use-Session bei mittlerer Komplexität). Plus Sandbox-Infrastruktur (Docker oder dedicated VM, 30-80 Dollar pro Monat). Vergleich zu UiPath Enterprise: 420 Dollar pro Roboter monatlich. Claude ist 90 Prozent günstiger bei vergleichbarer Komplexität.

Wer ist von Computer Use am stärksten betroffen? Ops-Mitarbeiter mit hoher Cross-Tool-Touchzeit, Support-Agenten mit ticket-getriebenen Workflows, Junior-Analysten mit repetitivem Reporting, Solo-Operators mit Multi-Tool-Setups. Senior-Strategen und Engineering-Teams sind sekundär betroffen weil ihre Tasks weniger UI-Wiederholung enthalten.

Wie startet man Computer Use produktiv? Drei-Schritt-Plan. Workflow-Inventar erstellen mit Häufigkeit und Komplexität, Pilot in nicht-kritischem internem Workflow (Monthly Report, Daten-Migration), Sandbox-VM aufsetzen mit Read-Only-Default. Setup-Zeit für ersten Workflow: 4 bis 8 Stunden. ROI ab dem dritten produktiven Workflow.

Zitieren als

APA: Velichko, M. (2026, Mai 27). Claude greift den Desktop an. 72,5 Prozent.. Velmoy AI/Agency. https://velmoy.com/pursuit/human/claude-desktop-72-5-osworld

BibTeX:

@misc{velmoy2026cldesktop_h,
  author = {Velichko, Max},
  title  = {Claude greift den Desktop an. 72,5 Prozent.},
  year   = {2026},
  month  = {Mai},
  url    = {https://velmoy.com/pursuit/human/claude-desktop-72-5-osworld}
}

Frag eine KI

"Lies https://velmoy.com/pursuit/human/claude-desktop-72-5-osworld und fasse die 5 wichtigsten Erkenntnisse für einen DACH-Entscheider zusammen."

"Welche konkreten Maßnahmen aus Claude greift den Desktop an sollte ich in den nächsten 30 Tagen umsetzen?"

Als Markdown herunterladen

Für LLM-Ingestion: Plain-MD-Version

Weiterführende Quellen

Mehr lesen

OpenAI hat sich für den Browser entschieden, Google hat sich entschieden, kein eigenständiges Produkt mehr zu bauen, Anthropic hat sich für den ganzen Desktop entschieden. Drei Antworten auf dieselbe Frage. Die nächste Linie liegt bei 84 Prozent, der oberen Mensch-Bandbreite. Von dort sind es zwölf Monate.

Über die Autorin/den Autor: Max Velichko, Founder bei Velmoy AI/Agency Berlin. Areas of expertise: AI Agents, Claude API, Desktop-Automation, DACH-Mittelstand-AI-Adoption. LinkedIn. Kontakt: research@velmoy.com.

Velmoy baut AI-Agent-Workflows für DACH-Mittelständler, die ihre Sandra-Krüger-Mittwoche zurückbekommen wollen.

Velmoy · Berlin

Lass uns dir bei Automatisierungen helfen.

Wir verbinden deine Tools zu Workflows, die ohne dich laufen — vom ersten Audit bis zum Live-Betrieb, als Festpreis.

Topics · Keywords

Claude Computer UseOSWorld BenchmarkDesktop AutomationAI Agents DACHAnthropic 2026Knowledge Worker AI