Hermes-Agent als persönlicher CTO
Erste Erfahrungen mit Hermes als autonom arbeitendem Agenten – was funktioniert, wo der Mensch noch gebraucht wird, und warum das Konzept trotzdem überzeugt.
Bernd D.H. Martin
Ein CTO denkt nicht nur in einzelnen Features. Er denkt in Systemen, Abhängigkeiten, Risiken. Er bricht eine vage Anforderung in konkrete Schritte herunter, koordiniert verschiedene Kompetenzen und verliert dabei das große Bild nicht.
Genau das versucht Hermes zu tun – als Multi-Agent-Framework das nicht einen einzelnen LLM-Call macht, sondern eine Aufgabe orchestriert.
Was Hermes von einem einfachen LLM-Call unterscheidet
Ein Standard-LLM-Aufruf ist linear: Prompt rein, Antwort raus. Komplex wird es wenn die Aufgabe mehrere Schritte, verschiedene Werkzeuge und Feedback-Schleifen braucht.
Hermes arbeitet anders. Es gibt einen Orchestrator-Agent der die Aufgabe versteht und zerlegt, und Sub-Agents die spezialisierte Teilaufgaben übernehmen – Recherche, Code-Analyse, Bewertung, Zusammenfassung. Der Orchestrator hält den Überblick, die Sub-Agents liefern Tiefe.
Das Ergebnis ist weniger ein einzelner Treffer und mehr ein Denkprozess.
Das Experiment: Technologie-Entscheidung vorbereiten
Ich habe Hermes eine Aufgabe gegeben die ich sonst selbst über mehrere Stunden bearbeite: Evaluierung ob ein bestehendes Nuxt-Projekt auf Server Components umgestellt werden sollte.
Die Eingabe:
Analysiere das Projekt. Bewerte ob eine Migration auf Nuxt Server Components
sinnvoll ist. Berücksichtige: Komplexität, Performance-Gewinn,
Migrations-Aufwand und potenzielle Risiken. Empfehle mit Begründung.
Wie Hermes die Aufgabe zerlegt hat
Der Orchestrator hat die Aufgabe in vier parallele Stränge aufgeteilt:
- Analyse-Agent — liest Projektstruktur, identifiziert bestehende Komponenten und deren Render-Muster
- Recherche-Agent — sucht aktuelle Dokumentation zu Nuxt Server Components, Breaking Changes, bekannte Probleme
- Aufwands-Agent — schätzt Migrations-Aufwand basierend auf Komponenten-Anzahl und Abhängigkeiten
- Risk-Agent — bewertet Abhängigkeiten die mit Server Components inkompatibel sein könnten
Die Ergebnisse wurden zusammengeführt und zu einer strukturierten Empfehlung verdichtet.
Das Ergebnis
Hermes hat eine klare Empfehlung geliefert: Partielle Migration, nicht vollständig.
Begründung: Die datenlastigen Seiten (Labs, About) profitieren von Server Components, da sie statische Inhalte aus Collections rendern. Die interaktiven Teile (Suche, Theme-Toggle) sind Client-only und würden durch eine erzwungene Migration Komplexität ohne Gewinn erzeugen.
Diese Nuancierung — nicht alles oder nichts — war das was mich überrascht hat. Ein einfacher LLM-Call hätte wahrscheinlich eine klare Ja/Nein-Antwort geliefert.
Überraschungen
Positiv: Der Orchestrator hat eigenständig erkannt wann ein Sub-Agent unzureichende Informationen geliefert hat und ihn mit präzisiertem Auftrag erneut aktiviert. Das war nicht explizit im Prompt — Hermes hat das selbst entschieden.
Ernüchternd: Der Recherche-Agent hat eine veraltete Nuxt-Dokumentation als Quelle verwendet und daraus eine Empfehlung abgeleitet die für die aktuelle Version nicht mehr galt. Ohne mein Hintergrundwissen wäre das unbemerkt in die finale Empfehlung eingeflossen.
Human-in-the-Loop war nötig: Beim Schritt "Migrations-Aufwand schätzen" hat der Agent keine Erfahrungswerte, nur Zeilen-Counts und Abhängigkeits-Graphen. Die Bewertung ob 40 Stunden Aufwand für dieses Projekt vertretbar sind – das ist eine unternehmerische Entscheidung, keine technische.
Wann Hermes sinnvoll ist
Hermes lohnt sich wenn die Aufgabe:
- Mehrere unabhängige Recherche- oder Analyseschritte hat
- Verschiedene Perspektiven braucht die zusammengeführt werden sollen
- Einen strukturierten Output erwartet, nicht nur eine Antwort
Für schnelle Einzelfragen, Code-Snippets oder direkte Implementierungsaufgaben ist Claude Code oder ein direkter API-Call effizienter. Hermes ist kein Allzweckwerkzeug – es ist ein Werkzeug für komplexe Entscheidungsunterstützung.
Fazit: Wie weit sind autonome Agenten wirklich?
Ehrliche Einschätzung: Weit genug um echten Wert zu liefern. Nicht weit genug um ohne menschliche Überprüfung in Produktion zu gehen.
Hermes als persönlicher CTO funktioniert als Denkpartner der Optionen strukturiert und bewertet – nicht als Entscheider. Die finale Bewertung, die Risikoabwägung, das Gespür für was in diesem konkreten Kontext richtig ist: das bleibt beim Menschen.
Aber der Weg von vager Frage zu strukturierter Entscheidungsgrundlage ist messbar kürzer geworden. Und das ist für sich genommen schon viel.
Claude Code als Agentic Development Partner
Wie ich Claude Code nutze, um komplexe Features deutlich schneller und sauberer zu bauen – und was sich dabei grundlegend in meiner Arbeitsweise verändert hat.
Kimi K2.5 vs Minimax M2.7 beim Refactoring
Direkter Vergleich zweier starker Modelle bei der Arbeit mit Legacy-Code – gleicher Prompt, gleiche Aufgabe, unterschiedliche Ergebnisse.