Version vom 10. Mai 2026, 16:26 Uhr

Lokale KI – Grundlagen

Was ist eine KI bzw. ein Sprachmodell?

Ein großes Sprachmodell (englisch: Large Language Model, kurz LLM) ist ein Computerprogramm, das Text versteht und erzeugt. Es wurde darauf trainiert, auf Fragen zu antworten, Texte zusammenzufassen, Code zu schreiben oder Probleme zu erklären.

Bekannte Beispiele sind ChatGPT (OpenAI), Gemini (Google) oder Claude (Anthropic). Diese laufen in der Cloud – der Text wird also an fremde Server geschickt, dort verarbeitet und die Antwort zurückgeschickt.

Eine lokale KI läuft dagegen vollständig auf dem eigenen Rechner. Es werden keine Daten nach außen übertragen.

Woher kommen die Daten?

Ein Sprachmodell wird mit enormen Mengen an Text trainiert – hauptsächlich aus dem Internet:

Webseiten (Common Crawl – ein Archiv eines Großteils des öffentlichen Internets)
Wikipedia
Bücher und wissenschaftliche Artikel
Programmiercode (z.B. von GitHub)
Nachrichtenartikel, Foren, soziale Netzwerke

Das Training eines großen Modells wie Llama kostet Millionen von Euro und dauert Wochen auf tausenden von GPUs. Das Ergebnis ist eine einzelne Datei – das Modell – die das gesammelte „Wissen" in Form von Milliarden von Zahlenwerten speichert.

Wie funktioniert eine Antwort?

Das Modell erzeugt Antworten Wort für Wort (genauer: Token für Token). Es berechnet bei jedem Schritt, welches Wort als nächstes am wahrscheinlichsten passt – basierend auf allem, was es während des Trainings gesehen hat.

Es „weiß" nichts im menschlichen Sinne – es erkennt statistische Muster in Sprache und wendet diese an.

Lokal vs. Cloud

	Lokal	Cloud
Datenschutz	Daten bleiben auf dem Rechner	Daten gehen an externe Server
Kosten	Einmalig (Hardware)	Laufende Kosten (API, Abo)
Geschwindigkeit	Abhängig von Hardware	Meist schneller
Internetverbindung	Nicht nötig	Erforderlich
Modellgröße	Begrenzt durch RAM/VRAM	Keine Einschränkung

Bekannte lokale Modelle

Modell	Hersteller	Besonderheit
Llama 3	Meta	Weit verbreitet, gute Qualität
Mistral	Mistral AI	Effizient, gutes Preis-Leistungs-Verhältnis
Qwen	Alibaba	Gut für Deutsch und Code
DeepSeek	DeepSeek AI	Stark im logischen Denken
Gemma	Google	Kompakt und schnell

Zusammenfassung

Eine lokale KI ist ein trainiertes Sprachmodell, das auf dem eigenen Rechner läuft. Es wurde mit Texten aus dem Internet trainiert und erzeugt Antworten durch statistische Mustererkennung. Der größte Vorteil gegenüber Cloud-Lösungen ist der Datenschutz – kein Text verlässt den eigenen Rechner.

@@ Zeile 1: / Zeile 1: @@
+= Lokale KI – Grundlagen =
+== Was ist eine KI bzw. ein Sprachmodell? ==
-== Transformer-Architektur ==
+Ein großes Sprachmodell (englisch: ''Large Language Model'', kurz '''LLM''') ist ein Computerprogramm, das Text versteht und erzeugt. Es wurde darauf trainiert, auf Fragen zu antworten, Texte zusammenzufassen, Code zu schreiben oder Probleme zu erklären.
-Moderne Sprachmodelle basieren auf der sogenannten '''Transformer-Architektur''', die 2017 von Google eingeführt wurde. Der entscheidende Mechanismus darin ist die '''Attention''' (Aufmerksamkeit): Das Modell lernt, welche Wörter in einem Satz in Bezug zueinander besonders relevant sind.
+Bekannte Beispiele sind ChatGPT (OpenAI), Gemini (Google) oder Claude (Anthropic). Diese laufen in der Cloud – der Text wird also an fremde Server geschickt, dort verarbeitet und die Antwort zurückgeschickt.
-Beispiel: Im Satz „Die Katze saß auf der Matte, weil sie müde war" muss das Modell verstehen, dass „sie" sich auf „die Katze" bezieht – nicht auf „die Matte". Attention löst genau dieses Problem.
+Eine '''lokale KI''' läuft dagegen vollständig auf dem eigenen Rechner. Es werden keine Daten nach außen übertragen.
-== Tokenisierung ==
+== Woher kommen die Daten? ==
-Sprachmodelle verarbeiten keinen rohen Text, sondern '''Tokens'''. Ein Token ist grob ein halbes bis ganzes Wort. Der Text wird vor der Verarbeitung in eine Folge von Zahlen (Token-IDs) umgewandelt.
+Ein Sprachmodell wird mit enormen Mengen an Text trainiert – hauptsächlich aus dem Internet:
-Beispiel:
+* Webseiten (Common Crawl – ein Archiv eines Großteils des öffentlichen Internets)
-<pre>
+* Wikipedia
-"Hallo Welt"  →  [39, 15339, 12, ...]
+* Bücher und wissenschaftliche Artikel
-</pre>
+* Programmiercode (z.B. von GitHub)
+* Nachrichtenartikel, Foren, soziale Netzwerke
-Die maximale Anzahl an Tokens, die ein Modell auf einmal verarbeiten kann, nennt sich '''Context Window''' (Kontextfenster). Ältere Modelle hatten 4.096 Tokens, neuere bis zu 128.000 und mehr.
+Das Training eines großen Modells wie Llama kostet Millionen von Euro und dauert Wochen auf tausenden von GPUs. Das Ergebnis ist eine einzelne Datei – das '''Modell''' – die das gesammelte „Wissen" in Form von Milliarden von Zahlenwerten speichert.
-== Training ==
+== Wie funktioniert eine Antwort? ==
-Das Training läuft in zwei Phasen:
+Das Modell erzeugt Antworten '''Wort für Wort''' (genauer: Token für Token). Es berechnet bei jedem Schritt, welches Wort als nächstes am wahrscheinlichsten passt – basierend auf allem, was es während des Trainings gesehen hat.
-; Pre-Training
+Es „weiß" nichts im menschlichen Sinne – es erkennt statistische Muster in Sprache und wendet diese an.
-: Das Modell liest riesige Textmengen (Billionen von Tokens) und lernt, das nächste Token vorherzusagen. Dabei passen sich Milliarden von Gewichten (Parametern) an. Dies ist die teuerste Phase.
-; Fine-Tuning / RLHF
+== Lokal vs. Cloud ==
-: Das vortrainierte Modell wird auf spezifische Aufgaben spezialisiert – z.B. Fragen beantworten, Anweisungen befolgen. RLHF (Reinforcement Learning from Human Feedback) nutzt menschliche Bewertungen um das Verhalten zu verbessern.
-== Parameter und Modellgröße ==
-Die Größe eines Modells wird in '''Parametern''' angegeben – z.B. 7B (7 Milliarden). Parameter sind die gelernten Zahlenwerte, die das Wissen des Modells kodieren.
-Faustregel für den Speicherbedarf ohne Quantisierung:
 {| class="wikitable"
-! Parameter !! Speicher (FP16)
+! !! Lokal !! Cloud
 |-
-| 3B || ~6 GB
+| Datenschutz || Daten bleiben auf dem Rechner || Daten gehen an externe Server
 |-
-| 7B || ~14 GB
+| Kosten || Einmalig (Hardware) || Laufende Kosten (API, Abo)
 |-
-| 13B || ~26 GB
+| Geschwindigkeit || Abhängig von Hardware || Meist schneller
 |-
-| 70B || ~140 GB
+| Internetverbindung || Nicht nötig || Erforderlich
-|}
-== Quantisierung ==
-Da große Modelle enorm viel Speicher benötigen, werden sie für den lokalen Einsatz '''quantisiert''': Die Genauigkeit der Parameter wird reduziert – von 16-Bit-Gleitkommazahlen (FP16) auf 4-Bit-Integer (Q4).
-Das spart 75 % Speicher bei moderatem Qualitätsverlust. Ollama lädt automatisch quantisierte Versionen (GGUF-Format).
-{| class="wikitable"
-! Format !! Bits pro Parameter !! Speicher (7B-Modell) !! Qualität
 |-
-| FP16 || 16 Bit || ~14 GB || Voll
+| Modellgröße || Begrenzt durch RAM/VRAM || Keine Einschränkung
-|-
-| Q8 || 8 Bit || ~7 GB || Sehr gut
-|-
-| Q4 || 4 Bit || ~4 GB || Gut
-|-
-| Q2 || 2 Bit || ~2 GB || Eingeschränkt
 |}
-== Inferenz – lokal vs. Cloud ==
+== Bekannte lokale Modelle ==
-'''Inferenz''' bezeichnet die eigentliche Nutzung des Modells – also das Erzeugen einer Antwort auf eine Eingabe. In der Cloud läuft die Inferenz auf dedizierten Hochleistungs-GPUs. Lokal ist man auf die eigene Hardware angewiesen.
-Die Geschwindigkeit wird in '''Tokens pro Sekunde''' gemessen. Richtwerte:
-* CPU (moderner Laptop): 5–15 t/s bei 7B Q4
-* GPU (8 GB VRAM): 30–80 t/s bei 7B Q4
-* GPU (24 GB VRAM): 60–120 t/s bei 13B Q4
-== Datenquellen ==
-Die wichtigsten Trainingsdatenquellen für öffentliche Modelle:
 {| class="wikitable"
-! Quelle !! Beschreibung
+! Modell !! Hersteller !! Besonderheit
 |-
-| Common Crawl || Archiv von Milliarden Webseiten
+| Llama 3 || Meta || Weit verbreitet, gute Qualität
 |-
-| The Pile || Kuratierter Datensatz aus Büchern, Code, Wissenschaft
+| Mistral || Mistral AI || Effizient, gutes Preis-Leistungs-Verhältnis
 |-
-| GitHub || Quellcode in dutzenden Programmiersprachen
+| Qwen || Alibaba || Gut für Deutsch und Code
 |-
-| Wikipedia || Strukturiertes Weltwissen in vielen Sprachen
+| DeepSeek || DeepSeek AI || Stark im logischen Denken
 |-
-| Books3 || Digitalisierte Bücher
+| Gemma || Google || Kompakt und schnell
 |}
 == Zusammenfassung ==
-Lokale Sprachmodelle basieren auf der Transformer-Architektur und werden in zwei Phasen trainiert. Die Modellgröße bestimmt Qualität und Speicherbedarf. Quantisierung macht große Modelle auf Consumer-Hardware nutzbar. Ollama übernimmt Download, Quantisierung und Inferenz automatisch.
+Eine lokale KI ist ein trainiertes Sprachmodell, das auf dem eigenen Rechner läuft. Es wurde mit Texten aus dem Internet trainiert und erzeugt Antworten durch statistische Mustererkennung. Der größte Vorteil gegenüber Cloud-Lösungen ist der Datenschutz – kein Text verlässt den eigenen Rechner.

Lokale KI – Grundlagen: Unterschied zwischen den Versionen