Zum Inhalt springen bmline
Labs
Mar 28, 2026
AnythingLLM: Eigene Wissensbasis, eigenes Modell, null Cloud-Zwang

AnythingLLM: Eigene Wissensbasis, eigenes Modell, null Cloud-Zwang

Wie AnythingLLM eine vollständige lokale RAG-Pipeline aufbaut – und warum das für Unternehmen mit sensiblen Daten ein Gamechanger ist.

Bernd D.H. Martin

Die meisten KI-Demos zeigen dasselbe Muster: Frage eingeben, Antwort bekommen, staunen. Was sie nicht zeigen: Woher kommt das Wissen? Wer sieht die Fragen? Wo landen die Daten?

Für ein Ein-Mann-Büro mag das egal sein. Für Unternehmen mit Kundendaten, internen Prozessen oder vertraulichen Dokumenten ist es der entscheidende Punkt – und genau hier setzt AnythingLLM an.

Was ist AnythingLLM?

AnythingLLM ist eine Open-Source-Anwendung, die eine vollständige RAG-Pipeline (Retrieval-Augmented Generation) lokal auf deinem Rechner oder Server betreibt. Du lädst Dokumente hoch, AnythingLLM zerlegt sie, erzeugt Vektoren, speichert sie lokal – und verbindet das Ganze mit einem LLM deiner Wahl.

Das Ergebnis: Du kannst mit deinen eigenen Dokumenten chatten, als wärst du bei ChatGPT – nur dass kein einziges Byte dein Netzwerk verlässt.

Das RAG-Prinzip verstehen

RAG steht für Retrieval-Augmented Generation. Statt ein Modell mit allem Wissen der Welt zu befüllen (unmöglich und teuer), wird ein kleines, spezifisches Wissensarchiv aufgebaut und bei jeder Anfrage gezielt durchsucht.

Der Ablauf in AnythingLLM:

1. Chunking — Dokumente werden in überschaubare Abschnitte zerlegt. Nicht Seiten, nicht Absätze – sondern semantisch sinnvolle Einheiten.

2. Embedding — Jeder Chunk wird durch ein Embedding-Modell in einen Zahlenvektor übersetzt. Ähnliche Inhalte bekommen ähnliche Vektoren.

3. Vector Store — Diese Vektoren landen lokal in einer Datenbank (LanceDB oder Chroma). Keine externe API, kein Cloud-Speicher.

4. Retrieval — Kommt eine Frage rein, wird sie ebenfalls in einen Vektor umgewandelt. AnythingLLM sucht die ähnlichsten Chunks aus dem Store – das sind die relevantesten Stellen aus deinen Dokumenten.

5. Generation — Die gefundenen Chunks werden zusammen mit der Frage als Kontext an das LLM übergeben. Das Modell antwortet basierend auf deinen echten Dokumenten – keine Halluzination aus dem Nichts.

Warum lokale Modelle der Schlüssel sind

AnythingLLM ist LLM-agnostisch. Du kannst OpenAI oder Claude als Backend nutzen – dann werden zumindest die Prompts und Kontextfragmente an externe APIs gesendet. Für echte Datensouveränität kombinierst du AnythingLLM mit Ollama oder LM Studio:

Dokument → AnythingLLM → Ollama (lokal) → Antwort

Alles passiert auf deiner Hardware. Kein Internetausgang nötig. Kein DSGVO-Problem. Kein Token-Kosten-Zählen.

Für kleinere bis mittlere Dokument-Anfragen reichen aktuelle Consumer-Modelle wie llama3, mistral oder phi-3 vollkommen aus.

Workspaces: Wissensbereiche trennen

Ein unterschätztes Feature ist das Workspace-Konzept. Du kannst mehrere isolierte Wissensbereiche anlegen:

  • Kundenprojekt A — nur Docs aus diesem Projekt
  • Internes Wiki — Prozesse, Onboarding, Handbücher
  • Codebase-Docs — README, API-Docs, Architecture Decision Records
  • Verträge & Recht — AGBs, Musterverträge, Compliance-Unterlagen

Jeder Workspace hat seinen eigenen Vector Store und seine eigene Chat-History. Das Modell antwortet immer nur auf Basis des aktiven Workspace – keine ungewollten Überschneidungen.

Mein konkretes Setup

Ich nutze AnythingLLM lokal auf einem Mac mini M4 mit folgender Konfiguration:

  • Embedding: nomic-embed-text via Ollama (schnell, kompakt, gut)
  • LLM für alltägliche Anfragen: llama3.2 via Ollama
  • LLM für komplexe Analysen: Claude via API (nur bei Bedarf, kein Pflicht-Routing)
  • Vector Store: LanceDB (Standard in AnythingLLM, kein Extra-Setup nötig)

Die Installation ist überraschend einfach: Desktop-App herunterladen, starten, Ollama verbinden, fertig. Keine Docker-Kenntnisse nötig, kein Terminal-Aufwand.

Was wirklich gut funktioniert

Technische Dokumentation durchsuchen — Große README-Dateien, API-Docs oder Architecture Decision Records auf Fragen durchsuchen. Statt Cmd+F gibt es jetzt semantisches Suchen: „Wie wird die Authentifizierung in diesem Projekt gehandhabt?"

Vertragsanalyse — PDFs von Verträgen hochladen und konkrete Fragen stellen: „Welche Kündigungsfristen gelten?", „Gibt es eine Haftungsbeschränkung?". AnythingLLM findet die relevanten Stellen und fasst zusammen.

Onboarding-Beschleunigung — Neues Projekt, unbekannte Codebase? Alle Docs in einen Workspace laden und einfach fragen.

Wo die Grenzen liegen

RAG ist kein Allheilmittel. Einige ehrliche Einschränkungen:

Qualität der Chunks entscheidet — Schlecht strukturierte Dokumente (gescannte PDFs, Präsentationen ohne Text-Layer) liefern schlechte Ergebnisse. Garbage in, garbage out.

Kontextfenster bleibt begrenzt — AnythingLLM schickt nicht das gesamte Dokument ans Modell, sondern nur die Top-K Chunks. Bei sehr spezifischen Fragen über verteilte Informationen kann etwas verloren gehen.

Lokale Modelle kosten Rechenleistung — Auf älterer Hardware kann die Antwortzeit mit lokalen Modellen mehrere Sekunden betragen. M-Chip Macs und aktuelle NVIDIA-GPUs sind hier klar im Vorteil.

Fazit: Wann lohnt es sich?

AnythingLLM lohnt sich sobald eine dieser Bedingungen zutrifft:

  • Du arbeitest mit vertraulichen Dokumenten die nicht in eine Cloud dürfen
  • Du willst dauerhaft Token-Kosten sparen bei repetitiven Dokumenten-Anfragen
  • Du brauchst eine interne Wissensbasis die dein Team per Chat nutzen kann
  • Du willst verstehen wie RAG wirklich funktioniert – hands-on, ohne Abstraktionsschichten

Die Kombination aus AnythingLLM + Ollama ist 2026 produktionsreif. Kein Experiment mehr – sondern ein ernsthaftes Werkzeug für alle, die KI-gestützte Wissensarbeit ohne Cloud-Abhängigkeit betreiben wollen.