iso27diy-corp/Corpus/🎇 Sparks/Model Parameters.md

moeten zorgen dat het LLM dat je gebruikt overeenkomt met de hard-ware-resources in je computer. Als het LLM groter is dan de hoeveelheid RAM die je hebt, kan hij namelijk niet geladen worden.
Om ervoor te zorgen dat de grootte van de LLMs beperkt wordt, wordt vaak gebruikgemaakt van Quantization. Dit zorgt dat modellen kleiner en sneller worden. Een standaard LLM maakt gebruik van 32 bits-instructies, en dat betekent dat je voor elke parameter 4 bytes nodig hebt. Een LLM met 7B in de naam, heeft 7 miljard parameters en heeft dus 28 GB aan ruimte nodig.
Dat is de hoeveelheid gpu-RAM die je nodig hebt om deze LLM te kunnen gebruiken. Dat betekent ook dat je al snel 5.000 euro aan gpu's moet uitgeven, gezien de huidige prijzen en hoeveelheid RAM per gpu.
Veel LLM's voor tests gebruiken
4 bits quantization, en dat houdt in dat je nog maar 3.5 GB RAM nodig hebt om het te kunnen laden, en dat zal op veel systemen geen probleem zijn. Gebruik van quantization gaat echter wel ten koste van de kwaliteit van de antwoorden. Het aantal token dat gebruikt wordt voor het genereren van de antwoorden gaat achteruit bij een hoge quantization, n dat betekent dat de kwaliteit van e antwoorden minder wordt.
Het is dus zaak om er bij de keuze van de LLM altijd voor te zorgen dat het 4 bits quantization gebruikt (of dat je heel veel RAM hebt). Dit herken je aan de toevoeging Q4 in de naam van de LLM. Daarnaast moet je weten hoeveel RAM er op je gpu beschikbaar is. Dit achterhaal je met een tool als nvtop, die dat keurig voor je weer-geeft. Als je dus bijvoorbeeld maar 2 GB gpu-RAM hebt, kom je er ook met een 7B LLM met 4Q niet uit, en zal je moeten zoeken naar een kleiner LLM.
Hiervoor gebruik je https://hugging-face.co, het opensource-platform waar je heel veel LLMs kunt vinden.