Lokale KI – Funktionsweise und Konzepte: Unterschied zwischen den Versionen

Aus Xinux Wiki
Zur Navigation springen Zur Suche springen
(Die Seite wurde neu angelegt: „= Lokale KI – Funktionsweise und Konzepte = == Transformer-Architektur == Moderne Sprachmodelle basieren auf der sogenannten '''Transformer-Architektur''',…“)
 
 
(Eine dazwischenliegende Version desselben Benutzers wird nicht angezeigt)
Zeile 1: Zeile 1:
= Lokale KI – Funktionsweise und Konzepte =
 
 
 
== Transformer-Architektur ==
 
== Transformer-Architektur ==
  
Zeile 91: Zeile 89:
 
| Books3 || Digitalisierte Bücher
 
| Books3 || Digitalisierte Bücher
 
|}
 
|}
 +
 +
== Auf welche Daten greift das Modell zur Laufzeit zu? ==
 +
 +
Ein häufiges Missverständnis: Das Modell greift während eines Gesprächs auf '''keine externen Daten''' zu – kein Internet, keine Datenbank, keine Dateien.
 +
 +
Die Trainingsdaten beeinflussen ausschließlich die '''Gewichte''' des Modells – die Milliarden von Zahlenwerten in der GGUF-Datei. Nach dem Training sind diese Gewichte eingefroren. Der ursprüngliche Datensatz wird nicht mehr benötigt und ist im fertigen Modell nicht abrufbar.
 +
 +
Bei der Inferenz verarbeitet das Modell ausschließlich:
 +
 +
* Den aktuellen '''Prompt''' (die Eingabe des Nutzers)
 +
* Den bisherigen '''Gesprächsverlauf''' im Kontextfenster
 +
 +
Es berechnet daraus rein statistisch das wahrscheinlichste nächste Token – ohne etwas nachzuschlagen.
 +
 +
Dies erklärt drei typische Eigenschaften von Sprachmodellen:
 +
 +
{| class="wikitable"
 +
! Eigenschaft !! Ursache
 +
|-
 +
| Wissensdatum (Cutoff) || Das Modell kennt nur Ereignisse bis zum Ende des Trainings
 +
|-
 +
| Halluzinationen || Das Modell schätzt – es schlägt nichts nach
 +
|-
 +
| Kein aktuelles Wissen || Ohne externe Tools (z.B. Web Search) keine neuen Informationen
 +
|}
 +
 +
'''Analogie:''' Ein Mensch der jahrelang Bücher gelesen hat – aber beim Gespräch kein Buch aufschlägt. Er antwortet aus dem Gedächtnis. Das „Gedächtnis" des Modells ist nach dem Training jedoch dauerhaft eingefroren.
  
 
== Zusammenfassung ==
 
== Zusammenfassung ==
  
Lokale Sprachmodelle basieren auf der Transformer-Architektur und werden in zwei Phasen trainiert. Die Modellgröße bestimmt Qualität und Speicherbedarf. Quantisierung macht große Modelle auf Consumer-Hardware nutzbar. Ollama übernimmt Download, Quantisierung und Inferenz automatisch.
+
Lokale Sprachmodelle basieren auf der Transformer-Architektur und werden in zwei Phasen trainiert. Die Modellgröße bestimmt Qualität und Speicherbedarf. Quantisierung macht große Modelle auf Consumer-Hardware nutzbar. Zur Laufzeit greift das Modell ausschließlich auf den aktuellen Gesprächskontext zu – alle anderen Kenntnisse sind in den Gewichten eingefroren. Ollama übernimmt Download, Quantisierung und Inferenz automatisch.

Aktuelle Version vom 10. Mai 2026, 16:35 Uhr

Transformer-Architektur

Moderne Sprachmodelle basieren auf der sogenannten Transformer-Architektur, die 2017 von Google eingeführt wurde. Der entscheidende Mechanismus darin ist die Attention (Aufmerksamkeit): Das Modell lernt, welche Wörter in einem Satz in Bezug zueinander besonders relevant sind.

Beispiel: Im Satz „Die Katze saß auf der Matte, weil sie müde war" muss das Modell verstehen, dass „sie" sich auf „die Katze" bezieht – nicht auf „die Matte". Attention löst genau dieses Problem.

Tokenisierung

Sprachmodelle verarbeiten keinen rohen Text, sondern Tokens. Ein Token ist grob ein halbes bis ganzes Wort. Der Text wird vor der Verarbeitung in eine Folge von Zahlen (Token-IDs) umgewandelt.

Beispiel:

"Hallo Welt"  →  [39, 15339, 12, ...]

Die maximale Anzahl an Tokens, die ein Modell auf einmal verarbeiten kann, nennt sich Context Window (Kontextfenster). Ältere Modelle hatten 4.096 Tokens, neuere bis zu 128.000 und mehr.

Training

Das Training läuft in zwei Phasen:

Pre-Training
Das Modell liest riesige Textmengen (Billionen von Tokens) und lernt, das nächste Token vorherzusagen. Dabei passen sich Milliarden von Gewichten (Parametern) an. Dies ist die teuerste Phase.
Fine-Tuning / RLHF
Das vortrainierte Modell wird auf spezifische Aufgaben spezialisiert – z.B. Fragen beantworten, Anweisungen befolgen. RLHF (Reinforcement Learning from Human Feedback) nutzt menschliche Bewertungen um das Verhalten zu verbessern.

Parameter und Modellgröße

Die Größe eines Modells wird in Parametern angegeben – z.B. 7B (7 Milliarden). Parameter sind die gelernten Zahlenwerte, die das Wissen des Modells kodieren.

Faustregel für den Speicherbedarf ohne Quantisierung:

Parameter Speicher (FP16)
3B ~6 GB
7B ~14 GB
13B ~26 GB
70B ~140 GB

Quantisierung

Da große Modelle enorm viel Speicher benötigen, werden sie für den lokalen Einsatz quantisiert: Die Genauigkeit der Parameter wird reduziert – von 16-Bit-Gleitkommazahlen (FP16) auf 4-Bit-Integer (Q4).

Das spart 75 % Speicher bei moderatem Qualitätsverlust. Ollama lädt automatisch quantisierte Versionen (GGUF-Format).

Format Bits pro Parameter Speicher (7B-Modell) Qualität
FP16 16 Bit ~14 GB Voll
Q8 8 Bit ~7 GB Sehr gut
Q4 4 Bit ~4 GB Gut
Q2 2 Bit ~2 GB Eingeschränkt

Inferenz – lokal vs. Cloud

Inferenz bezeichnet die eigentliche Nutzung des Modells – also das Erzeugen einer Antwort auf eine Eingabe. In der Cloud läuft die Inferenz auf dedizierten Hochleistungs-GPUs. Lokal ist man auf die eigene Hardware angewiesen.

Die Geschwindigkeit wird in Tokens pro Sekunde gemessen. Richtwerte:

  • CPU (moderner Laptop): 5–15 t/s bei 7B Q4
  • GPU (8 GB VRAM): 30–80 t/s bei 7B Q4
  • GPU (24 GB VRAM): 60–120 t/s bei 13B Q4

Datenquellen

Die wichtigsten Trainingsdatenquellen für öffentliche Modelle:

Quelle Beschreibung
Common Crawl Archiv von Milliarden Webseiten
The Pile Kuratierter Datensatz aus Büchern, Code, Wissenschaft
GitHub Quellcode in dutzenden Programmiersprachen
Wikipedia Strukturiertes Weltwissen in vielen Sprachen
Books3 Digitalisierte Bücher

Auf welche Daten greift das Modell zur Laufzeit zu?

Ein häufiges Missverständnis: Das Modell greift während eines Gesprächs auf keine externen Daten zu – kein Internet, keine Datenbank, keine Dateien.

Die Trainingsdaten beeinflussen ausschließlich die Gewichte des Modells – die Milliarden von Zahlenwerten in der GGUF-Datei. Nach dem Training sind diese Gewichte eingefroren. Der ursprüngliche Datensatz wird nicht mehr benötigt und ist im fertigen Modell nicht abrufbar.

Bei der Inferenz verarbeitet das Modell ausschließlich:

  • Den aktuellen Prompt (die Eingabe des Nutzers)
  • Den bisherigen Gesprächsverlauf im Kontextfenster

Es berechnet daraus rein statistisch das wahrscheinlichste nächste Token – ohne etwas nachzuschlagen.

Dies erklärt drei typische Eigenschaften von Sprachmodellen:

Eigenschaft Ursache
Wissensdatum (Cutoff) Das Modell kennt nur Ereignisse bis zum Ende des Trainings
Halluzinationen Das Modell schätzt – es schlägt nichts nach
Kein aktuelles Wissen Ohne externe Tools (z.B. Web Search) keine neuen Informationen

Analogie: Ein Mensch der jahrelang Bücher gelesen hat – aber beim Gespräch kein Buch aufschlägt. Er antwortet aus dem Gedächtnis. Das „Gedächtnis" des Modells ist nach dem Training jedoch dauerhaft eingefroren.

Zusammenfassung

Lokale Sprachmodelle basieren auf der Transformer-Architektur und werden in zwei Phasen trainiert. Die Modellgröße bestimmt Qualität und Speicherbedarf. Quantisierung macht große Modelle auf Consumer-Hardware nutzbar. Zur Laufzeit greift das Modell ausschließlich auf den aktuellen Gesprächskontext zu – alle anderen Kenntnisse sind in den Gewichten eingefroren. Ollama übernimmt Download, Quantisierung und Inferenz automatisch.