Lokale KI – Funktionsweise und Konzepte - Versionsgeschichte

Thomas.will am 10. Mai 2026 um 16:35 Uhr

2026-05-10T16:35:10Z

Thomas.will am 10. Mai 2026 um 16:27 Uhr

2026-05-10T16:27:24Z

Thomas.will: Die Seite wurde neu angelegt: „= Lokale KI – Funktionsweise und Konzepte = == Transformer-Architektur == Moderne Sprachmodelle basieren auf der sogenannten '''Transformer-Architektur''',…“

2026-05-10T16:27:15Z

Die Seite wurde neu angelegt: „= Lokale KI – Funktionsweise und Konzepte = == Transformer-Architektur == Moderne Sprachmodelle basieren auf der sogenannten '''Transformer-Architektur''',…“

Neue Seite

= Lokale KI – Funktionsweise und Konzepte =

== Transformer-Architektur ==

Moderne Sprachmodelle basieren auf der sogenannten '''Transformer-Architektur''', die 2017 von Google eingeführt wurde. Der entscheidende Mechanismus darin ist die '''Attention''' (Aufmerksamkeit): Das Modell lernt, welche Wörter in einem Satz in Bezug zueinander besonders relevant sind.

Beispiel: Im Satz „Die Katze saß auf der Matte, weil sie müde war" muss das Modell verstehen, dass „sie" sich auf „die Katze" bezieht – nicht auf „die Matte". Attention löst genau dieses Problem.

== Tokenisierung ==

Sprachmodelle verarbeiten keinen rohen Text, sondern '''Tokens'''. Ein Token ist grob ein halbes bis ganzes Wort. Der Text wird vor der Verarbeitung in eine Folge von Zahlen (Token-IDs) umgewandelt.

Beispiel:
<pre>
"Hallo Welt" → [39, 15339, 12, ...]
</pre>

Die maximale Anzahl an Tokens, die ein Modell auf einmal verarbeiten kann, nennt sich '''Context Window''' (Kontextfenster). Ältere Modelle hatten 4.096 Tokens, neuere bis zu 128.000 und mehr.

== Training ==

Das Training läuft in zwei Phasen:

; Pre-Training
: Das Modell liest riesige Textmengen (Billionen von Tokens) und lernt, das nächste Token vorherzusagen. Dabei passen sich Milliarden von Gewichten (Parametern) an. Dies ist die teuerste Phase.

; Fine-Tuning / RLHF
: Das vortrainierte Modell wird auf spezifische Aufgaben spezialisiert – z.B. Fragen beantworten, Anweisungen befolgen. RLHF (Reinforcement Learning from Human Feedback) nutzt menschliche Bewertungen um das Verhalten zu verbessern.

== Parameter und Modellgröße ==

Die Größe eines Modells wird in '''Parametern''' angegeben – z.B. 7B (7 Milliarden). Parameter sind die gelernten Zahlenwerte, die das Wissen des Modells kodieren.

Faustregel für den Speicherbedarf ohne Quantisierung:

{| class="wikitable"
! Parameter !! Speicher (FP16)
|-
| 3B || ~6 GB
|-
| 7B || ~14 GB
|-
| 13B || ~26 GB
|-
| 70B || ~140 GB
|}

== Quantisierung ==

Da große Modelle enorm viel Speicher benötigen, werden sie für den lokalen Einsatz '''quantisiert''': Die Genauigkeit der Parameter wird reduziert – von 16-Bit-Gleitkommazahlen (FP16) auf 4-Bit-Integer (Q4).

Das spart 75 % Speicher bei moderatem Qualitätsverlust. Ollama lädt automatisch quantisierte Versionen (GGUF-Format).

{| class="wikitable"
! Format !! Bits pro Parameter !! Speicher (7B-Modell) !! Qualität
|-
| FP16 || 16 Bit || ~14 GB || Voll
|-
| Q8 || 8 Bit || ~7 GB || Sehr gut
|-
| Q4 || 4 Bit || ~4 GB || Gut
|-
| Q2 || 2 Bit || ~2 GB || Eingeschränkt
|}

== Inferenz – lokal vs. Cloud ==

'''Inferenz''' bezeichnet die eigentliche Nutzung des Modells – also das Erzeugen einer Antwort auf eine Eingabe. In der Cloud läuft die Inferenz auf dedizierten Hochleistungs-GPUs. Lokal ist man auf die eigene Hardware angewiesen.

Die Geschwindigkeit wird in '''Tokens pro Sekunde''' gemessen. Richtwerte:

* CPU (moderner Laptop): 5–15 t/s bei 7B Q4
* GPU (8 GB VRAM): 30–80 t/s bei 7B Q4
* GPU (24 GB VRAM): 60–120 t/s bei 13B Q4

== Datenquellen ==

Die wichtigsten Trainingsdatenquellen für öffentliche Modelle:

{| class="wikitable"
! Quelle !! Beschreibung
|-
| Common Crawl || Archiv von Milliarden Webseiten
|-
| The Pile || Kuratierter Datensatz aus Büchern, Code, Wissenschaft
|-
| GitHub || Quellcode in dutzenden Programmiersprachen
|-
| Wikipedia || Strukturiertes Weltwissen in vielen Sprachen
|-
| Books3 || Digitalisierte Bücher
|}

== Zusammenfassung ==

Lokale Sprachmodelle basieren auf der Transformer-Architektur und werden in zwei Phasen trainiert. Die Modellgröße bestimmt Qualität und Speicherbedarf. Quantisierung macht große Modelle auf Consumer-Hardware nutzbar. Ollama übernimmt Download, Quantisierung und Inferenz automatisch.

← Nächstältere Version		Version vom 10. Mai 2026, 16:27 Uhr
Zeile 1:		Zeile 1:
−	~~= Lokale KI – Funktionsweise und Konzepte =~~	+

	== Transformer-Architektur ==		== Transformer-Architektur ==

@@ Zeile 1: / Zeile 1: @@
 == Transformer-Architektur ==
@@ Zeile 91: / Zeile 89: @@
 | Books3 || Digitalisierte Bücher
 |}
 == Zusammenfassung ==
-Lokale Sprachmodelle basieren auf der Transformer-Architektur und werden in zwei Phasen trainiert. Die Modellgröße bestimmt Qualität und Speicherbedarf. Quantisierung macht große Modelle auf Consumer-Hardware nutzbar. Ollama übernimmt Download, Quantisierung und Inferenz automatisch.
+Lokale Sprachmodelle basieren auf der Transformer-Architektur und werden in zwei Phasen trainiert. Die Modellgröße bestimmt Qualität und Speicherbedarf. Quantisierung macht große Modelle auf Consumer-Hardware nutzbar. Zur Laufzeit greift das Modell ausschließlich auf den aktuellen Gesprächskontext zu – alle anderen Kenntnisse sind in den Gewichten eingefroren. Ollama übernimmt Download, Quantisierung und Inferenz automatisch.