AnythingLLM: Eigene Wissensbasis, eigenes Modell, null Cloud-Zwang
Wie AnythingLLM eine vollständige lokale RAG-Pipeline aufbaut – und warum das für Unternehmen mit sensiblen Daten ein Gamechanger ist.
Bernd D.H. Martin
Die meisten KI-Demos zeigen dasselbe Muster: Frage eingeben, Antwort bekommen, staunen. Was sie nicht zeigen: Woher kommt das Wissen? Wer sieht die Fragen? Wo landen die Daten?
Für ein Ein-Mann-Büro mag das egal sein. Für Unternehmen mit Kundendaten, internen Prozessen oder vertraulichen Dokumenten ist es der entscheidende Punkt – und genau hier setzt AnythingLLM an.
Was ist AnythingLLM?
AnythingLLM ist eine Open-Source-Anwendung, die eine vollständige RAG-Pipeline (Retrieval-Augmented Generation) lokal auf deinem Rechner oder Server betreibt. Du lädst Dokumente hoch, AnythingLLM zerlegt sie, erzeugt Vektoren, speichert sie lokal – und verbindet das Ganze mit einem LLM deiner Wahl.
Das Ergebnis: Du kannst mit deinen eigenen Dokumenten chatten, als wärst du bei ChatGPT – nur dass kein einziges Byte dein Netzwerk verlässt.
Das RAG-Prinzip verstehen
RAG steht für Retrieval-Augmented Generation. Statt ein Modell mit allem Wissen der Welt zu befüllen (unmöglich und teuer), wird ein kleines, spezifisches Wissensarchiv aufgebaut und bei jeder Anfrage gezielt durchsucht.
Der Ablauf in AnythingLLM:
1. Chunking — Dokumente werden in überschaubare Abschnitte zerlegt. Nicht Seiten, nicht Absätze – sondern semantisch sinnvolle Einheiten.
2. Embedding — Jeder Chunk wird durch ein Embedding-Modell in einen Zahlenvektor übersetzt. Ähnliche Inhalte bekommen ähnliche Vektoren.
3. Vector Store — Diese Vektoren landen lokal in einer Datenbank (LanceDB oder Chroma). Keine externe API, kein Cloud-Speicher.
4. Retrieval — Kommt eine Frage rein, wird sie ebenfalls in einen Vektor umgewandelt. AnythingLLM sucht die ähnlichsten Chunks aus dem Store – das sind die relevantesten Stellen aus deinen Dokumenten.
5. Generation — Die gefundenen Chunks werden zusammen mit der Frage als Kontext an das LLM übergeben. Das Modell antwortet basierend auf deinen echten Dokumenten – keine Halluzination aus dem Nichts.
Warum lokale Modelle der Schlüssel sind
AnythingLLM ist LLM-agnostisch. Du kannst OpenAI oder Claude als Backend nutzen – dann werden zumindest die Prompts und Kontextfragmente an externe APIs gesendet. Für echte Datensouveränität kombinierst du AnythingLLM mit Ollama oder LM Studio:
Dokument → AnythingLLM → Ollama (lokal) → Antwort
Alles passiert auf deiner Hardware. Kein Internetausgang nötig. Kein DSGVO-Problem. Kein Token-Kosten-Zählen.
Für kleinere bis mittlere Dokument-Anfragen reichen aktuelle Consumer-Modelle wie llama3, mistral oder phi-3 vollkommen aus.
Workspaces: Wissensbereiche trennen
Ein unterschätztes Feature ist das Workspace-Konzept. Du kannst mehrere isolierte Wissensbereiche anlegen:
- Kundenprojekt A — nur Docs aus diesem Projekt
- Internes Wiki — Prozesse, Onboarding, Handbücher
- Codebase-Docs — README, API-Docs, Architecture Decision Records
- Verträge & Recht — AGBs, Musterverträge, Compliance-Unterlagen
Jeder Workspace hat seinen eigenen Vector Store und seine eigene Chat-History. Das Modell antwortet immer nur auf Basis des aktiven Workspace – keine ungewollten Überschneidungen.
Mein konkretes Setup
Ich nutze AnythingLLM lokal auf einem Mac mini M4 mit folgender Konfiguration:
- Embedding:
nomic-embed-textvia Ollama (schnell, kompakt, gut) - LLM für alltägliche Anfragen:
llama3.2via Ollama - LLM für komplexe Analysen: Claude via API (nur bei Bedarf, kein Pflicht-Routing)
- Vector Store: LanceDB (Standard in AnythingLLM, kein Extra-Setup nötig)
Die Installation ist überraschend einfach: Desktop-App herunterladen, starten, Ollama verbinden, fertig. Keine Docker-Kenntnisse nötig, kein Terminal-Aufwand.
Was wirklich gut funktioniert
Technische Dokumentation durchsuchen — Große README-Dateien, API-Docs oder Architecture Decision Records auf Fragen durchsuchen. Statt Cmd+F gibt es jetzt semantisches Suchen: „Wie wird die Authentifizierung in diesem Projekt gehandhabt?"
Vertragsanalyse — PDFs von Verträgen hochladen und konkrete Fragen stellen: „Welche Kündigungsfristen gelten?", „Gibt es eine Haftungsbeschränkung?". AnythingLLM findet die relevanten Stellen und fasst zusammen.
Onboarding-Beschleunigung — Neues Projekt, unbekannte Codebase? Alle Docs in einen Workspace laden und einfach fragen.
Wo die Grenzen liegen
RAG ist kein Allheilmittel. Einige ehrliche Einschränkungen:
Qualität der Chunks entscheidet — Schlecht strukturierte Dokumente (gescannte PDFs, Präsentationen ohne Text-Layer) liefern schlechte Ergebnisse. Garbage in, garbage out.
Kontextfenster bleibt begrenzt — AnythingLLM schickt nicht das gesamte Dokument ans Modell, sondern nur die Top-K Chunks. Bei sehr spezifischen Fragen über verteilte Informationen kann etwas verloren gehen.
Lokale Modelle kosten Rechenleistung — Auf älterer Hardware kann die Antwortzeit mit lokalen Modellen mehrere Sekunden betragen. M-Chip Macs und aktuelle NVIDIA-GPUs sind hier klar im Vorteil.
Fazit: Wann lohnt es sich?
AnythingLLM lohnt sich sobald eine dieser Bedingungen zutrifft:
- Du arbeitest mit vertraulichen Dokumenten die nicht in eine Cloud dürfen
- Du willst dauerhaft Token-Kosten sparen bei repetitiven Dokumenten-Anfragen
- Du brauchst eine interne Wissensbasis die dein Team per Chat nutzen kann
- Du willst verstehen wie RAG wirklich funktioniert – hands-on, ohne Abstraktionsschichten
Die Kombination aus AnythingLLM + Ollama ist 2026 produktionsreif. Kein Experiment mehr – sondern ein ernsthaftes Werkzeug für alle, die KI-gestützte Wissensarbeit ohne Cloud-Abhängigkeit betreiben wollen.
Der Harness-Prozess: Warum 2026 das Jahr der kontrollierten KI-Autonomie ist
Was ein Agentic Harness ist, wie er funktioniert, und warum er der entscheidende Unterschied zwischen einem Spielzeug und einem echten KI-Entwicklungspartner ist.
Claude Code als Agentic Development Partner
Wie ich Claude Code nutze, um komplexe Features deutlich schneller und sauberer zu bauen – und was sich dabei grundlegend in meiner Arbeitsweise verändert hat.