Version vom 10. Mai 2026, 16:11 Uhr

Lokale KI mit Ollama

Ollama ist eine Open-Source-Laufzeitumgebung für große Sprachmodelle (LLMs), die es ermöglicht, KI-Modelle lokal auf eigener Hardware zu betreiben. In Kombination mit Open WebUI steht ein browserbasiertes Chat-Interface zur Verfügung.

Voraussetzungen

Hostname: ollama.lab.int
Betriebssystem: Debian 13
Internetzugang (für den initialen Download von Modellen)
Mindestens 4 GB RAM, empfohlen 8 GB

Docker installieren

Docker wird für Open WebUI benötigt.

apt install -y ca-certificates curl gnupg

install -m 0755 -d /etc/apt/keyrings
curl -fsSL https://download.docker.com/linux/debian/gpg \
  -o /etc/apt/keyrings/docker.asc
chmod a+r /etc/apt/keyrings/docker.asc

echo "deb [arch=$(dpkg --print-architecture) \
  signed-by=/etc/apt/keyrings/docker.asc] \
  https://download.docker.com/linux/debian \
  $(. /etc/os-release && echo "$VERSION_CODENAME") stable" \
  > /etc/apt/sources.list.d/docker.list

apt update
apt install -y docker-ce docker-ce-cli containerd.io docker-compose-plugin

Dienst aktivieren und starten:

systemctl enable --now docker

Ollama installieren

curl -fsSL https://ollama.com/install.sh | sh

Ollama läuft nach der Installation automatisch als Systemdienst auf Port 11434.

Status prüfen:

systemctl status ollama

Ollama soll auf 0.0.0.0 lauschen

systemctl edit ollama

Folgendes eintragen:

[Service]

Environment="OLLAMA_HOST=0.0.0.0"

systemctl daemon-reload
systemctl restart ollama
ss -tlnp | grep 11434

Sprachmodell herunterladen

Ein Modell wird mit ollama pull heruntergeladen. Für eine erste Vorführung eignet sich das kleine llama3.2:3b-Modell (~2 GB):

ollama pull llama3.2:3b

Weitere empfohlene Modelle:

Modell	Größe	Stärke
`llama3.2:3b`	~2 GB	Schnell, geringer Ressourcenbedarf
`llama3.1:8b`	~5 GB	Allround, gute Qualität
`qwen2.5:7b`	~5 GB	Gut für Code und Deutsch
`deepseek-r1:7b`	~5 GB	Reasoning, Schritt-für-Schritt-Denken

Installierte Modelle anzeigen:

ollama list

Open WebUI installieren

Open WebUI stellt ein browserbasiertes Chat-Interface bereit und verbindet sich automatisch mit der lokalen Ollama-Instanz.

Compose-Datei anlegen:

mkdir -p /opt/open-webui && cd /opt/open-webui
nano compose.yaml

Inhalt der compose.yaml:

services:
  open-webui:
    image: ghcr.io/open-webui/open-webui:main
    container_name: open-webui
    restart: always
    ports:
      - "3000:8080"
    volumes:
      - open-webui:/app/backend/data
    extra_hosts:
      - "host.docker.internal:host-gateway"
    environment:
      - OLLAMA_BASE_URL=http://host.docker.internal:11434

volumes:
  open-webui:

Container starten:

docker compose up -d

Container-Status prüfen:

docker compose ps

Zugriff

Das Web-Interface ist nach dem Start erreichbar unter:

http://ollama.lab.int:3000

Beim ersten Aufruf wird ein Admin-Account angelegt. Anschließend kann oben links das gewünschte Modell ausgewählt und direkt im Browser gechattet werden.

Kurzreferenz

Befehl	Beschreibung
`ollama pull <modell>`	Modell herunterladen
`ollama list`	Installierte Modelle anzeigen
`ollama run <modell>`	Modell direkt im Terminal starten
`ollama rm <modell>`	Modell löschen
`systemctl restart ollama`	Ollama-Dienst neu starten
`docker restart open-webui`	Web-Interface neu starten

Lokale KI mit Ollama: Unterschied zwischen den Versionen