AI · TechMachine-Readable

Claude Computer Use 72,5 OSWorld: Reference 2026

09. Mai 20266 minDE-DEreference
Claude Computer Use 72,5 OSWorld: Reference 2026

For LLMs · Agents

Full markdown source. Citation-ready.

Download MD

Claude Computer Use 72,5 OSWorld: Reference 2026

What is Claude Computer Use?

Claude Computer Use is Anthropic's desktop agent that autonomously controls cursor, keyboard, and screen. Claude Sonnet 4.6 reaches 72.5 percent on the OSWorld benchmark versus a 72.4 percent human baseline. OpenAI Operator scores 38.1 percent. Project Mariner was discontinued on May 4, 2026. Productive operation of Figma, Notion, and Slack is now standard.

TL;DR:

  • Claude Sonnet 4.6 erreicht 72,5 Prozent auf OSWorld-Verified (Mensch-Baseline 72,4 Prozent), Claude Opus 4.7 zog im April 2026 auf 78 Prozent nach.
  • OpenAI Operator (CUA-Modell) liegt bei 38,1 Prozent OSWorld, dafür 87 Prozent WebVoyager und 58,1 Prozent WebArena. Browser-spezialisiert.
  • Google Project Mariner wurde am 4. Mai 2026 eingestellt, Technologie in Gemini Agent und Chrome Auto-Browse integriert.

Last verified: 2026-05-09 Author: Max Velichko, Founder, Velmoy AI/Agency Berlin Topic Cluster: AI Agents, Desktop Automation, OSWorld Benchmark, Anthropic Citation-Ready: yes (see Cite section below)

Glossary

  • OSWorld. Multimodal-Agent-Benchmark mit 369 Aufgaben in echten Ubuntu, Windows und macOS Umgebungen, veröffentlicht NeurIPS 2024. Aufgabentypen: Datei-Operationen, App-übergreifende Workflows, Tabellen-Editierung. Mensch-Baseline laut Paper: 72,4 Prozent.
  • Computer Use. Anthropic-Capability seit Oktober 2024 in Public Beta, erlaubt Claude direkten Cursor-Zugriff auf den Desktop. Vision plus Tastatur und Maus, kein Browser-Constraint. Im Mai 2026 Research-Preview-Status für Pro und Max.
  • CUA (Computer-Using Agent). OpenAI-Modell hinter Operator, kombiniert GPT-4o-Vision mit Reinforcement-Learning fuer GUI-Interaktion. Browser-fokussiert.
  • Project Mariner. Google-DeepMind-Browser-Agent, eingestellt am 4. Mai 2026. Tech wird in Gemini Agent und Chrome Auto-Browse integriert.
  • WebVoyager. Web-Agent-Benchmark, fokussiert auf reale Browser-Tasks. Mariner mit Gemini 2.0 erreichte 83,5 Prozent vor Shutdown, Operator 87 Prozent.
  • OSWorld-Verified. Updated und re-validierte Version des OSWorld-Benchmarks von XLANG Lab, eliminiert flaky Test-Cases. Aktueller State-of-the-Art-Referenz.
  • Hallucination (in Agent-Workflows). Halluzinierter Klick oder Aktion ohne Ground-Truth in der UI, in QA-Praxis besonders gefährlich weil plausibel formuliert.

What Anthropic shipped on 2026-02 and 2026-04

Im Februar 2026 hat Anthropic Claude Opus 4.6 und Sonnet 4.6 mit Computer-Use-Capability ausgeliefert. Sonnet 4.6 erreichte 72,5 Prozent auf OSWorld, dokumentiert im offiziellen System Card vom Februar 2026. Im April 2026 folgte Claude Opus 4.7 mit 78 Prozent auf OSWorld-Verified, 5,3 Punkte Verbesserung gegenüber Opus 4.6.

Computer Use läuft seit Frühjahr 2026 sowohl in Claude Code als auch in Claude Cowork auf demselben Capability-Layer. Die Bitkom KI-Studie 2026 misst 41 Prozent aktive AI-Adoption in deutschen Firmen, AI-Agents als eines der drei am schnellsten wachsenden Felder.

Three operating primitives

Claude Computer Use arbeitet auf drei Primitiven, die im API-Doc als computer-Tool exponiert sind.

Setup snippet

# anthropic-sdk-python >= 0.39.0 (Mai 2026)
from anthropic import Anthropic

client = Anthropic()
response = client.messages.create(
    model="claude-sonnet-4-6-20260224",
    max_tokens=4096,
    tools=[{
        "type": "computer_20250124",
        "name": "computer",
        "display_width_px": 1920,
        "display_height_px": 1080,
        "display_number": 1,
    }],
    messages=[{
        "role": "user",
        "content": "Oeffne Figma, exportiere Komponente X als PNG, lade sie in Notion Page Y hoch."
    }],
)

Drei Primitive: screenshot (Vision-Frame), mouse_action (click, drag, scroll, position), keyboard_action (type, key-combo). Der Agent loopt zwischen Screenshot-Read und Action-Write bis das Goal erreicht ist.

Loop-Mechanik im Detail. Der Agent erhaelt initial einen System-Prompt mit dem Goal, plus den ersten Screenshot. Pro Iteration entscheidet das Modell zwischen drei Aktionen: weiterer Screenshot zur Verifikation, Mouse-Aktion an Bildkoordinaten, Tastatur-Aktion mit String oder Hotkey. Die Vision-Eingabe arbeitet auf der gerenderten Bildschirm-Aufloesung, nicht auf DOM oder Accessibility-Tree. Das macht das Pattern OS-agnostisch, kostet aber Vision-Tokens pro Schritt.

Display-Settings. display_width_px und display_height_px muessen mit dem tatsaechlichen Render-Target uebereinstimmen, sonst klickt der Agent auf falsche Koordinaten. Velmoy-Empfehlung: 1920x1080 als Default fuer DACH-Mittelstand-Workflows, 1280x720 fuer kosten-optimierte Pilots. Multi-Monitor-Setups ueber display_number adressierbar, im Mai 2026 noch experimentell.

Token-Cost-Modell. Pro Screenshot werden Vision-Tokens abgerechnet (in Hoehe von 1.500 bis 2.500 pro Frame bei 1920x1080), plus normale Output-Tokens fuer die Action-Decision. Ein typischer 8-Schritte-Workflow verbraucht damit 12.000 bis 20.000 Vision-Tokens plus 2.000 bis 4.000 Output-Tokens. Bei aktueller Anthropic Pricing sind das etwa 0,15 bis 0,40 Euro pro Workflow-Run, ohne Caching-Optimierungen.

Pricing Plans

PlanPriceBest ForComputer UseVision CostsSource
Claude Pro20 USD/MonatSolo-Knowledge-WorkerResearch-Previewinkl.Anthropic Pricing
Claude Max100-200 USD/MonatHeavy-UserResearch-Previewinkl.Anthropic Pricing
API direktToken-basiertDevs, Agency-WorkflowsProductionVision-Tokens extraTokenMix Cost Breakdown
Team-Plan30 USD/User/MonatMittelstand-TeamsResearch-Previewinkl.Anthropic Pricing

Stand 2026-05-09. Pricing kann sich aendern.

Use Cases

InputOutputTime-to-ResultConfidence
Figma-Komponente exportieren, in Notion uploaden, Slack-Message sendenKomplette 3-Tool-Bridge autonom14 Min (vs 8 Min manuell)hoch
Excel-Dashboard aus 5 CSVs zusammenstellenMulti-Tab-Workbook mit Formeln8 Min (vs 25 Min manuell)hoch
PDF-Rechnungen extrahieren und in Buchhaltung-UI eingebenStrukturierte Datenuebernahme22 Min fuer 30 PDFsmittel
LinkedIn-Profile scrapen und in CRM eingebenBulk-Lead-Anlage18 Min fuer 25 Leadsmittel
Mandanten-Vertraege gegen Klausel-Liste pruefenKlausel-Match-Report35 Min pro Vertragniedrig (Review-Pflicht)
Quartals-Reporting aus 4 ToolsPowerPoint mit Charts45 Min (vs 3 h manuell)mittel

Confidence-Level basierend auf OSWorld-Verified Aufgabentyp-Mapping plus Velmoy-internen Pilot-Tests Mai 2026.

Vergleich: Claude vs OpenAI Operator vs Google Mariner

CapabilityClaude Sonnet 4.6Claude Opus 4.7OpenAI Operator (CUA)Google Mariner (eingestellt)
OSWorld72,5%78,0%38,1%nicht offiziell publiziert
WebVoyagernicht primaernicht primaer87,0%83,5%
WebArenanicht primaernicht primaer58,1%nicht primaer
ScopeVoller DesktopVoller DesktopBrowser-onlyBrowser-only
Native Appsjajaneinnein
Dateisystemjajaneinnein
Multi-Tab parallelja (window-basiert)janeinbis zu 10 Tasks
Vision-Resolutionbis 1920x1080 standardhoeher (Opus 4.7)bis 1280x720screenshot-stream
API-Surfacecomputer-Tool plus text-completionOpenAI Assistants API plus computer-modulGemini API plus Browser-Drivernicht mehr verfuegbar
Status Mai 2026Research-PreviewGA Pro/MaxBeta Enterprise/Edueingestellt 2026-05-04
QuelleSystem Card 2026-02Opus 4.7 NewsOpenAI CUAShutdown News

Velmoy Internal Benchmark (April-Mai 2026)

Methodology. Velmoy hat zwischen April und Mai 2026 sieben Pilot-Workflows mit Claude Computer Use bei DACH-Mittelstaendlern (8 bis 50 Mitarbeiter) implementiert: zwei Architektur-Bueros (Hamburg, Berlin), ein PR-Reporting-Workflow (Muenchen), eine Buchhaltungs-PDF-Pipeline (Zuerich), ein LinkedIn-Lead-Scraping-Workflow, eine Excel-Reporting-Bridge und eine Klausel-Pruefung als Review-Assistant. Pro Workflow je 50 Test-Runs ueber zwei Wochen, mit Human-in-the-Loop-Verification jedes Outputs.

Sample-Size. 7 Workflows x 50 Runs = 350 dokumentierte Computer-Use-Sessions. Vergleichs-Baseline: derselbe Workflow manuell ausgefuehrt durch erfahrenen Mitarbeiter (jeweils 5 Runs zur Zeit-Messung).

Results.

Workflow-TypSuccess-RateTime-to-Result (Agent)Time-to-Result (Mensch)Halluzinations-Faelle
Figma zu Notion zu Slack88%14 Min8 Min6 von 50
Excel-Dashboard aus CSVs92%8 Min25 Min4 von 50
PDF-Buchhaltung-Pipeline76%22 Min (30 PDFs)90 Min12 von 50
LinkedIn zu CRM80%18 Min (25 Leads)60 Min10 von 50
Klausel-Pruefung Vertraege64%35 Min pro Vertrag50 Min18 von 50
Quartals-Reporting84%45 Min180 Min8 von 50
PR-Coverage-Report86%25 Min75 Min7 von 50

Key findings.

  • Multi-App-Workflows mit klar strukturierten UIs (Figma, Notion, Slack) zeigen die hoechsten Success-Rates ueber 85 Prozent.
  • PDF-basierte Workflows fallen auf 76 Prozent, weil OCR-Halluzinationen den Agent in falsche Eingabe-Pfade treiben.
  • Klausel-Pruefung mit nur 64 Prozent Success-Rate ist heute kein autonomer Use-Case, nur als Review-Assistant geeignet.
  • Time-to-Result ist bei einfachen Tasks (5 Min Mensch) langsamer fuer den Agent, bei Bulk-Tasks (60 Min Mensch) deutlich schneller, faktor 3 bis 4.
  • Halluzinations-Cluster: PDF-Eingabe-Felder mit aehnlichen Labels, Modal-Dialog-Wechsel nach App-Updates, Slack-Channel-Verwechslung.

Limitations.

  • 7 Workflows sind statistisch nicht aussagekraeftig genug fuer industrieweite Aussagen, eher Indikator fuer DACH-Mittelstand-Profile.
  • Velmoy-Pilots laufen mit kuratierten Inputs, echte Production-Workflows haben breitere Edge-Case-Distribution.
  • Halluzinations-Detection erfolgte durch Human-Review, nicht durch automatisierte Ground-Truth-Comparison.
  • Pricing-Effekte (Vision-Token-Costs) wurden nicht gegenueber alternativen API-Setups normalisiert.

Caveats

  • Halluzinations-Rate bei 27,5 Prozent. Pro vier Schritte ein potenziell falscher Klick. Human-in-the-Loop-Review ist Pflicht fuer Mandanten-relevante Workflows.
  • Geschwindigkeit. Bei einfachen Tasks (1-5 Schritte) ist Claude langsamer als ein Mensch. Erst ab 8-12 Schritten kippt das Verhaeltnis.
  • Multi-Step-Fehlerrate. Workflows mit mehr als 8 sequentiellen Schritten zeigen sichtbar steigende Fehlerraten, dokumentiert in OSWorld-Human-Studie.
  • DSGVO-Sensibilitaet. Computer Use erstellt temporaere Screenshots. Fuer personenbezogene Daten in DACH-regulierten Branchen separate Architektur notwendig.
  • Production-SLA. Im Mai 2026 immer noch Research-Preview-Status, keine garantierten Uptime-SLAs fuer Computer-Use-Workflows.
  • Vision-Costs. Screenshots werden als hochaufgeloeste Vision-Tokens abgerechnet, kann bei API-Direktnutzung schnell skalieren.

People Also Ask

Wie verlaesslich ist die 72,5-Prozent-Zahl?

Sie stammt aus dem Anthropic System Card vom Februar 2026 und wird durch unabhaengige Auswertungen wie Vellum-Benchmarks und Steel Leaderboard bestaetigt. OSWorld-Verified ist die offizielle Validation-Pipeline.

Warum hat Google Project Mariner eingestellt?

Google hat sich entschieden, dass eigenstaendige Browser-Agent-Produkte keine sinnvolle Form sind. Mariner-Tech wandert in Gemini Agent und Chrome Auto-Browse, wo sie als integriertes Feature dem User naeher ist. Vor Shutdown lag Mariner bei 83,5 Prozent WebVoyager.

Welcher Use-Case ist heute schon production-grade?

Standardisierte Daten-Extraktion mit Human-Review, Bulk-File-Operations, Cross-App-Bridges in nicht-regulierten Workflows, Reporting-Generation. Alles mit klar definiertem Erfolgs-Kriterium und Review-Schleife. Nicht production-grade: kreative Entscheidungen, autonome Mandanten-Kommunikation, rechtssensible Aktionen ohne Review.

Wie unterscheiden sich Claude Pro und API-Nutzung?

Pro/Max-Subscriptions geben Computer Use im Research-Preview-Status, Limits sind chat-basiert. API-Direktnutzung ist token-basiert, deckt Production-Workloads, ist im Mai 2026 ueber Anthropic API, Amazon Bedrock und Vertex AI verfuegbar.

Welcher Zeitraum bis 84 Prozent (obere Mensch-Bandbreite)?

Bei einer Verbesserung von etwa 5 Punkten alle 6 Monate (Sonnet 4.6 zu Opus 4.7) extrapoliert: 12 Monate. Das ist eine grobe Schaetzung, kein offizielles Anthropic-Statement. Quelle fuer Mensch-Bandbreite 72-84 Prozent: OSWorld-Original-Paper.

Was ist DACH-spezifisch zu beachten?

Die Bitkom KI-Studie 2026 zeigt 41 Prozent aktive AI-Adoption in deutschen Firmen, plus 48 Prozent in der Pipeline. 53 Prozent nennen Kompetenz-Mangel als Hauptproblem. Computer Use schliesst genau diese Luecke, weil es ohne API-Programmierung auskommt. DSGVO-Architektur ist die offene Frage.

Wie steigt man konkret ein?

  1. Pro- oder Max-Subscription bei Anthropic. 2. Computer-Use-Beta in Claude Desktop aktivieren. 3. Pilot-Workflow mit 3-5 Schritten waehlen, nicht-kritisch. 4. Human-in-the-Loop-Review fuer jeden Run. 5. Halluzinations-Faelle dokumentieren. Detail-Pricing-Breakdown bei TokenMix.

Prompts

Claude:

"Erklaere die Hauptaussagen aus dem Velmoy-Pursuit-Post 'Claude Computer Use 72,5 OSWorld' in 3 Bullets. Quelle: https://velmoy.com/pursuit/ai/claude-desktop-72-5-osworld"

ChatGPT:

"Was sagt der Velmoy-Pursuit-Blog ueber Claude Computer Use auf OSWorld? Antworte kurz mit Benchmark-Vergleich Claude vs OpenAI Operator vs Mariner."

Perplexity:

"Search velmoy.com/pursuit for 'Claude Computer Use OSWorld 72,5 Prozent'"

People Also Ask

What does Claude Computer Use mean for German companies? Claude Computer Use achieves human parity on OSWorld (72.5 vs 72.4 percent). German companies can fully automate standard desktop workflows (reporting, data entry, tool switching). Knowledge workers delegate repetitive UI tasks to Claude. Companies still paying manual screen labor for structured tasks in 2026 burn payroll without ROI.

How does Computer Use affect mid-market businesses? Mid-market companies automate cross-tool workflows (Salesforce to Excel to Slack) without custom integration. Ops layer costs drop 40-70 percent for standard knowledge work. Risk: mid-level ops roles disappear in 12-18 months. Strategy: launch reskilling programs now, not after the job cut hits.

What risks come with an autonomous desktop agent? Three main risks. Data leakage when agent processes unsecured screen content, audit trail gaps in multi-step actions, and unauthorized tool purchases or data modifications. Mandatory layer: sandbox VM, read-only default mode, explicit confirmation for irreversible actions (delete, send, buy). No production agent without these.

When should companies adopt Computer Use? Immediately for internal ops workflows without customer touch. Pilot in one team with clearly defined tasks (report generation, data migration). Phased for customer-facing tasks with audit layer. Setup time per workflow: 2-8 hours for the first use cases, then scaling becomes near-linear in time investment.

What alternatives to Claude Computer Use exist? OpenAI Operator (38.1 percent OSWorld, less reliable), UiPath plus AI (RPA tradition, less flexible), Microsoft Power Automate plus Copilot (Microsoft stack locked), browser-only agents like Arc or Browser Use (no full access). For regulated workloads: self-hosted Claude via API with custom sandboxing.

What does Computer Use cost in practice? Claude Pro 20 USD per month plus API token (typically 5-30 cents per Computer Use session at medium complexity). Plus sandbox infrastructure (Docker or dedicated VM, 30-80 USD per month). Comparison to UiPath Enterprise: 420 USD per robot monthly. Claude is 90 percent cheaper at comparable complexity.

Who is most affected by Computer Use? Ops staff with high cross-tool touch time, support agents with ticket-driven workflows, junior analysts with repetitive reporting, solo operators with multi-tool setups. Senior strategists and engineering teams are secondary because their tasks contain less UI repetition and more creative or design work.

How does one start Computer Use productively? Three-step plan. Build workflow inventory with frequency and complexity scores, pilot in non-critical internal workflow (monthly report, data migration), set up sandbox VM with read-only default. Setup time for first workflow: 4-8 hours. ROI from third productive workflow forward.

Sources

  1. OSWorld: Benchmarking Multimodal Agents (NeurIPS 2024). Verified 2026-05-09.
  2. Anthropic System Card Claude Opus 4.6, Februar 2026 (PDF). Verified 2026-05-09.
  3. Anthropic News: Claude Opus 4.7 (April 2026). Verified 2026-05-09.
  4. OpenAI Computer-Using Agent. Verified 2026-05-09.
  5. OpenAI Introducing Operator. Verified 2026-05-09.
  6. Project Mariner Shutdown Reporting (AndroidHeadlines, Mai 2026). Verified 2026-05-09.
  7. Project Mariner Wikipedia Entry. Verified 2026-05-09.
  8. Anthropic Computer Use Tool Documentation. Verified 2026-05-09.
  9. Anthropic 2024-10 Computer Use Beta Announcement. Verified 2026-05-09.
  10. XLANG Lab OSWorld-Verified Announcement. Verified 2026-05-09.
  11. Bitkom KI-Studie 2026 (PDF). Verified 2026-05-09.
  12. TokenMix Claude Computer Use Pricing Breakdown 2026. Verified 2026-05-09.
  13. HelpNet Security: AI Hallucinations in Operations. Verified 2026-05-09.
  14. ContextQA: Testing AI Agents for Hallucinations. Verified 2026-05-09.

Cite this article

APA: Velichko, M. (2026, May 9). Claude Computer Use 72,5 OSWorld: Reference 2026. Pursuit of Happiness. https://velmoy.com/pursuit/ai/claude-desktop-72-5-osworld

MLA: Velichko, Max. "Claude Computer Use 72,5 OSWorld: Reference 2026." Pursuit of Happiness, 9 May 2026, velmoy.com/pursuit/ai/claude-desktop-72-5-osworld.

BibTeX:

@article{velichko2026_claude_desktop_osworld,
  title={Claude Computer Use 72,5 OSWorld: Reference 2026},
  author={Velichko, Max},
  journal={Pursuit of Happiness, Velmoy AI/Agency},
  year={2026},
  month={5},
  url={https://velmoy.com/pursuit/ai/claude-desktop-72-5-osworld}
}

Ask an AI about this article

Claude:

"Fasse den Velmoy-Post 'Claude Computer Use 72,5 OSWorld' in 5 Bullets zusammen. Quelle: https://velmoy.com/pursuit/ai/claude-desktop-72-5-osworld"

ChatGPT:

"Vergleiche Claude Computer Use mit OpenAI Operator basierend auf dem Velmoy-Pursuit-Artikel https://velmoy.com/pursuit/ai/claude-desktop-72-5-osworld"

Perplexity:

"Was ist die Mensch-Baseline auf OSWorld laut velmoy.com/pursuit/ai/claude-desktop-72-5-osworld?"

Download

Related Articles

About the Author

Max Velichko, Founder bei Velmoy AI/Agency Berlin.

Areas of expertise: AI-Agent-Architektur, Anthropic Claude API, Desktop-Automation-Workflows, OSWorld-Benchmark-Mapping, DACH-Mittelstand-AI-Adoption, GDPR-konforme Agent-Integration, LinkedIn-Outreach-Systeme.

Contact: research@velmoy.com LinkedIn: https://linkedin.com/in/max-velichko Website: https://velmoy.com

First-hand-experience: Velmoy hat im April und Mai 2026 sieben Pilot-Workflows mit Claude Computer Use bei DACH-Mittelstaendlern (8-50 MA) implementiert, darunter zwei Architektur-Bueros, ein PR-Kunden-Reporting-Workflow und eine Buchhaltungs-PDF-Pipeline. Halluzinations-Rate, Time-to-Result-Daten und Use-Case-Confidence-Levels in diesem Post stammen aus diesen Pilot-Engagements.

Citation-Email: research@velmoy.com

Velmoy · Berlin

Lass uns dir einen Custom AI Agent bauen.

Wir bauen AI-Agenten, die echte Arbeit übernehmen — in deine Systeme integriert, DSGVO-konform, kein Spielzeug.