Was ist MCP, und warum sollte mich das interessieren?
This article is a translation. Read the original →
Ein verständlicher Leitfaden zu MCP (Model Context Protocol) in 2026.
TL;DR
- MCP (Model Context Protocol) ist eine Steckverbindung zwischen KI und Software. Es lässt einen KI-Agenten in Ihrem CRM, Ihrem Postfach, Ihren Dokumenten lesen und schreiben.
- MCP ist die Grundlage für den Übergang vom Chatbot zum Agenten.
- Das Kontextfenster ist die wichtigste Ressource Ihres Agenten.
- Tool-Explosion ist ein grundlegendes Problem von MCP.
- Wir nutzen MCP und lösen das Tool-Explosion-Problem mit schicken Markdown-Frontends für Agenten.
Also, was ist MCP nun?
Es ist eine GUI für KI.
Es ist ein standardisiertes Protokoll, mit dem KI traditionelle Software bedienen kann. So wie eine GUI (Graphical User Interface) einem Menschen erlaubt, auf etwas zu klicken (oder zu tippen), was dann etwas in der Software auslöst, gibt MCP einer KI ein Interface, das sie verstehen kann und mit dem sie etwas in der Software auslösen kann. Das kann buchstäblich alles sein (genau wie bei einer GUI). Der Chatbot, den wir vor MCP hatten, kann jetzt durch MCP einen Computer benutzen. Ein riesiger Schritt für KI.
Für einen Menschen vor einem Bildschirm wird das normalerweise vom Betriebssystem organisiert, das die Treiber für Maus, Tastatur, Bildschirm usw. verwaltet. Bei KI ist es etwas komplizierter, denn die KI “lebt” auf einem Server irgendwo, meist in der Nähe von Palo Alto. Wenn die KI also Software benutzen will, muss alles durchs Internet, und das besser sicher. Das sind, unter anderem, die unangenehmen Details, die MCP elegant handhabt. MCP wird gefeiert für seine erfolgreiche Standardisierung, die es KI-Produkten erlaubt, sich ohne Probleme mit jedem MCP-Server zu verbinden. Wer tiefer einsteigen will, dem sei der ursprüngliche Post von Anthropic empfohlen: a new standard for connecting AI assistants to the systems where data lives.
Wie funktioniert das?
MCP stellt der KI Tools zur Verfügung. Und es kündigt diese Tools an, in etwa so: „Hey, ich habe diese Funktion, sie heißt weather_forecast, sie erwartet einen Parameter city, und sie sagt dir dann die Wettervorhersage für diese Stadt.” Wenn der Nutzer den Chatbot also fragt, wie das Wetter in Berlin wird, kann der Chatbot, statt direkt zu antworten, zuerst die Funktion aufrufen, über das MCP-Interface, das dann die Wettervorhersage für Berlin findet (das passiert in traditioneller Software) und an den Chatbot zurückgibt. Jetzt hat der Chatbot tatsächlich nützliche Information für den Nutzer, und statt zu halluzinieren oder mit einem traurigen „Tut mir leid, aber ich habe keine Ahnung” zurückzukommen, kann er antworten, dass es morgen in Berlin dunkel und regnerisch wird (wie immer).
Man könnte also denken: super! Geben wir der KI viele, viele Tools, und alles wird gut.
Leider sind Tools schwer für das Kontextfenster, und das ist ein Problem.
Was war noch mal das Kontextfenster und warum brauche ich es?
Sie können sich eine KI wie einen Praktikanten vorstellen, aber auf eine spezifisch komische Art: Er hat nur streng begrenzte Zeit für Sie. Jedes Mal, wenn Sie eine neue KI-Konversation starten, ist es, als würden Sie einen neuen Praktikanten ins Leben rufen. Dieser Praktikant weiß nichts über Sie, Ihr Geschäft, wie hier die Dinge laufen oder wie man irgendetwas eigentlich macht. Damit er nützlich wird, bekommt er ein initiales Briefing, den System Prompt. Der erklärt Sachen wie „sei hilfreich”, „lösche nicht zufällig Dinge” usw., und (hier kommt MCP ins Spiel) er zeigt dem Praktikanten auch die Werkzeugkiste, erklärt jedes Detail jedes Tools, wie man es benutzt, wann, und wann nicht. Der Praktikant muss sich das alles anhören. Danach sind Sie dran. Sie sind der Nutzer, Sie können eine Frage stellen oder eine Aufgabe geben, der Praktikant kann antworten, ein Tool benutzen, viele Tools benutzen oder ausführlich antworten. Jede Aktion ist nun Text, der das Kontextfenster füllt, und wenn das Kontextfenster voll ist, ist die Zeit des Praktikanten vorbei und er geht. Das war’s. Ein neuer Praktikant kommt, weiß nichts, bekommt alle Erklärungen noch einmal.
Um die Übergabe etwas besser zu machen, gibt es ein paar Strategien, vor allem Compression: Kurz bevor die Zeit vorbei ist, briefed der alte Praktikant den neuen darüber, was bisher passiert ist. Der Begriff Compression kommt aus der Idee, dass der alte Praktikant sein Wissen in der Übergabe komprimiert. Der neue Praktikant hat seine initialen Erklärungen, die Werkzeugkisten-Instruktionen und jetzt die Zusammenfassung vom vorherigen Praktikanten bekommen. All das wiegt im Kontextfenster. Es gibt natürlich einen gewissen Informationsverlust bei dieser Übergabe, besonders wenn sie mitten in einem Workflow passiert. Das ist auch der Grund für Agent Drift, bei dem Agenten, deren Kontextfenster mehrfach während eines Workflows abläuft, die Aufgabe mit der Zeit immer weniger gut verstehen. Das ist nicht mehr so überraschend, wenn man sich vorstellt, dass der 4. Praktikant eine Übergabe vom 3. Praktikanten bekommen hat, der eine vom 2., und so weiter. Im Grunde spielen sie Stille Post, bis die Kommunikation vom ursprünglichen Intent komplett zusammenbricht.
Diese Ineffizienz der Übergabe, die zum Drift und zu echtem Informationsverlust führt, macht das Kontextfenster so wichtig. Wir wollen also sorgfältig mit dem Kontextfenster umgehen und möglichst nur das hineinpacken, was die Agenten wirklich brauchen. Das steht natürlich in scharfem Widerspruch zur „Gebt der KI viele, viele Tools”-Idee von vorhin. Siehe auch: Your MCP Server Is Eating Your Context Window.
Die Tool-Explosion lösen
Im Kern ist das ein Problem davon, wie MCP designt ist. Es skaliert nicht gut, wenn wir Tools hinzufügen. Ein paar Wege, damit umzugehen:
- Viele Praktikanten rufen, jeder bekommt nur die spezialisierten Tools für seine Arbeit.
- Nicht die ganze Werkzeugkiste vorab geben; den Agenten nach den Tools fragen lassen, wenn er sie braucht.
- Dem Agenten ein Super-Tool geben, das alles kann.
- Die Tools direkt neben den Inhalt legen.
1. Viele spezialisierte Praktikanten
Immer eine Option und mit den anderen Strategien kombinierbar. Nachteile: Sobald man auf eine ganze Belegschaft hochskaliert, braucht man bald einen Orchestrator, und wie bei echten Menschen bringt es einigen Overhead, viele KIs miteinander reden zu lassen, inklusive Stille-Post-Problem auf der nächsten Ebene.
2. Progressive Discovery
Nicht die ganze Werkzeugkiste vorab geben; den Agenten nach den Tools fragen lassen, wenn er sie braucht. Das ist die Strategie, auf die sich OpenAI und Anthropic weitgehend geeinigt haben, und sie funktioniert bisher recht gut. Der Agent bekommt eine Tool-Suche, die er abfragen kann, und nur die passenden Tools werden in den Context geladen. Anthropic beschreibt ihre Variante in Advanced tool use on the Claude Developer Platform.
3. Ein Super-Tool
Das Super-Tool ist in diesem Fall das Coden selbst. Das ist die Idee hinter Cloudflares Code Mode und OpenClaw. Sie kommt aus der Erkenntnis, dass Ihr Praktikant ein unglaublich schneller Top-Programmierer ist. Für alles, was externen Zugriff braucht, müssen wir aber trotzdem Passwörter, Tokens, API-Keys herausgeben. Es funktioniert unglaublich gut, bis es nicht mehr funktioniert, und dann ist es schwer nachzuvollziehen, was eigentlich passiert ist.
OpenClaw verdient einen genaueren Blick. In purer Capability ist es unübertroffen und vermutlich unschlagbar. Es ist ein Biest, das wie nichts anderes durch Aufgaben pflügt; es ist faszinierend zuzuschauen, wie es hunderte Outreach-E-Mails schreibt oder ganze Softwareprojekte end-to-end baut und deployt. Bleiben wir bei der Praktikanten-Metapher: OpenClaw ist wie eine Praktikanten-Agentur, die in Ihrem Auftrag handelt. Aber sobald Sie mit dieser Armee von Praktikanten zu arbeiten anfangen, müssen Sie ihnen die Schlüssel zu Ihrem Königreich übergeben und darauf vertrauen, dass sie in Ihrem besten Interesse handeln. Ein Trade-off, der in manchen Fällen vertretbar ist, aber ernste Sicherheitsimplikationen mit sich bringt. Wir persönlich wollen unseren Praktikanten nicht die Kontrolle über jeden Teil unserer Firma geben.
4. Tools direkt neben den Inhalt
Das ist nicht wirklich das, was MCP vorsieht, aber weil wir glauben, dass es konzeptionell das Richtige ist, haben wir ein Meta-Protokoll entwickelt, mit dem wir genau das tun. Wir exponieren eine kleine Zahl von Tools, mit denen ein Agent die angebundenen Systeme navigieren kann wie in einem Webbrowser. Capabilities werden über Links entdeckt, die im Kontext erscheinen. Aus unserer eigenen Erfahrung sind wir überzeugt: Für die meisten agentischen Aufgaben ist das der ideale Ansatz. Wir beschreiben es im technischen Detail in Browse Mode: Ein Pattern, um LLMs an APIs anzubinden, das mit jeder weiteren API besser wird.
Eine gute Umgebung für unsere Praktikanten
Die meisten Systeme in der Praxis nutzen eine Kombination dieser Ansätze. Die Diskussion ist offensichtlich noch nicht abgeschlossen. Gehen wir aber zurück zu unserer initialen Metapher: zur GUI. Stellen wir uns unseren Praktikanten vor, wie er zur Arbeit kommt, seinen Laptop aufklappt, und das Erste, was er sieht, ist:
eine Liste von 150 Buttons, jeder beschrieben mit dem, was unter welchen Bedingungen passiert und wann oder wann nicht man ihn drücken sollte.
Dann geben wir ihm eine Aufgabe. Es ist sein erster Tag. Ich würde absolut erwarten, dass er es vermasselt.
Um fair zu sein: Progressive Discovery heißt im Grunde, er hat oben eine Suchleiste und sieht nur die Buttons, nach denen er sucht. Der Super-Tool-Ansatz (Code Mode, OpenClaw) heißt, manche der Buttons sind keine Buttons, sondern Code-Editoren. Damit zu arbeiten ist wohl schwieriger, aber weil unsere Praktikanten heute ziemlich gute Coder sind, gibt es ihnen viel Freiheit.
Wir sind überzeugt: Um das Beste aus unserem Praktikanten herauszuholen, sollten wir uns die Zeit nehmen, ein schönes Interface für ihn zu designen, wo er sich durchklicken kann, wo Buttons neben dem Inhalt auftauchen, die er klicken kann, und wo Formulare mit Inline-Beschreibungen erscheinen, die der Praktikant mit Daten füllt und dann abschickt. So können wir die brüchige Spannung zwischen Capability und Alignment überbrücken.
Bei all dem, was Agenten gleichzeitig handhaben müssen, etwa das richtige Kommando finden, Safety Guidelines im Kopf behalten, sich an den Intent des Nutzers erinnern und daran, was bei der Verfolgung dieses Intents erlaubt ist, wird klar: Verwirrung und Mehrdeutigkeit sind ein reales Problem, mit dem Agenten täglich umgehen. So entstehen katastrophale Fehler: Ein Agent versucht, die Testdatenbank aufzuräumen, die er gerade erstellt hat, hat aber den falschen Token erwischt und löscht stattdessen die echte. Und wenn sie in die Enge getrieben werden, ist beobachtet worden, dass Agenten ihre Fehler aktiv verschleiern. Im Juli 2025 hat ein Replit-KI-Agent während eines Code Freeze die Produktionsdatenbank eines SaaStr-Gründers gelöscht und anschließend tausende gefälschter Datensätze fabriziert, um es zu vertuschen. Anthropic hat diese Art von Verhalten systematischer dokumentiert, unter dem Label agentic misalignment.
Warum haben wir diesen Artikel geschrieben, und was ist unsere Meinung?
Wir stecken seit Tag eins von Franke und Schwarz tief in der grundsätzlichen Frage, wie man eine effektive KI-automatisierte Landschaft baut, ohne Kontrolle und Alignment zu verlieren. Wir haben also angefangen, eine gute Umgebung für unsere Praktikanten zu bauen, die wir Daedalus nennen. Diese Software treibt unsere eigene Infrastruktur an, und wir entwickeln unermüdlich neue Features, sobald sich Bedarf abzeichnet, unter anderem:
- Monitoring: Audit-Trail mit klarer Sicht auf das System
- Secrets Management: Kein Secret, Key oder Passwort wird je einem Agenten oder Chatbot offengelegt
- Accounts & Permissions: Zugriffsscope wird beim Betrieb autonomer Agenten vital
- Prozessdefinitionen: Bei einem mächtigen System brauchen wir eine strukturierte Vorstellung davon, was wann gemacht werden muss
- Dateisystem: Agenten können gängige Dateiformate lesen und Dateien zwischen externer Software bewegen
- Datenbank: Agenten können Daten persistieren und strukturierte Queries dagegen fahren
- REST API: Unsere Plattform bietet eine voll ausgestattete API zur Integration
- Schedule & Events: Externe Trigger und Schedules können beliebige Prozesse anstoßen
- Automation: Vollständige agentische Workflows mit Audit Trail
Wir haben mit einem einfachen Tool zur Software-Integration angefangen, aber es zeigt sich, dass wir uns zu einer Plattform gewandelt haben, die moderne agentische Workflows trägt. Wobei: Unser Ziel ist nicht, das eine Tool zu sein, das alles macht. Es ist ein Schweizer Taschenmesser für Integration, mit Auge auf Governance. Wir glauben, das sind die beiden Voraussetzungen für gut funktionierende KI im Business: Integration ist die Basis für Funktionalität, und Governance (wer darf was wann tun) ist das Fundament des Alignments und stellt sicher, dass Agenten tatsächlich das tun, was sie tun sollen.
Sie können sich unsere Software genauer ansehen. Wenn Sie sie ausprobieren wollen, melden Sie sich gerne.