Quantisierung

Modellkomprimierung fuer effiziente lokale Ausfuehrung.

Allgemeine Infos

Quantisierung reduziert die Praezision von Modellgewichten (z. B. von FP16 auf INT4/INT8), wodurch LLMs weniger VRAM benoetigen und schneller inferieren. GGUF-Format (llama.cpp) und AWQ sind gaengige Methoden. Trade-off: leichter Qualitaetsverlust bei deutlich geringerem Ressourcenbedarf.

Kurzbeschreibung

Modellkomprimierung fuer effiziente lokale Ausfuehrung.

Lizenz & Verfügbarkeit

Kostenlos; Open-Source-Tools (llama.cpp, GPTQ).

Weiterführende Links