Sloth LabSlothLab Tools

Vérificateur VRAM LLM

Vérifiez si votre GPU peut exécuter un modèle LLM spécifique.

Configuration du Modèle

B

Les champs de remplacement sont facultatifs — laissez vide pour utiliser les valeurs par défaut du modèle.

Votre Matériel

Peut Exécuter

OK20.4 Go requis / 24 Go disponibles
Utilisation VRAM85.1%

Poids du Modèle

4.6 GB

Cache KV

15.4 GB

Marge

3.6 GB

Conseil : Q8 est la quantification de meilleure qualité compatible avec votre GPU.

Dernière Mise à Jour: March 16, 2026

Comment Ça Marche

La VRAM est calculée avec la formule : Poids du modèle (paramètres × octets par poids selon la quantification) + Cache KV (proportionnel à la longueur du contexte) + 0,5 Go d'overhead. La quantification réduit la précision : Q4 utilise ~0,57 octet/param, Q8 utilise 1 octet, FP16 utilise 2 octets et FP32 utilise 4 octets.

common.whyThisMatters

tools.llm-checker.whyThisMatters

common.realWorldExamples

tools.llm-checker.realWorldExamples

Méthodologie et Sources

This calculator estimates VRAM requirements using the fundamental relationship between model parameters and memory. At full precision (FP32), each parameter requires 4 bytes; at half-precision (FP16/BF16), 2 bytes per parameter. Quantized formats reduce this further — Q8_0 uses approximately 1 byte per parameter, Q4_K_M uses roughly 0.5 bytes, and Q2_K approximately 0.25 bytes. The KV-cache memory is estimated based on the model's architecture: number of layers, attention heads, head dimension, and the configured context length. The formula accounts for both key and value tensors stored in FP16 format. Our GPU database includes specifications from NVIDIA (GeForce, Quadro, Tesla, A100, H100 series), AMD (Radeon, Instinct series), and Apple Silicon (M1-M3 with unified memory). Specifications are sourced from official manufacturer data sheets. Limitations: Actual VRAM usage varies by inference framework (llama.cpp, vLLM, TGI, Ollama), operating system overhead, and specific model architecture details. Our estimates include a 10% overhead buffer but real-world usage may differ by 5-15%. Multi-GPU setups using tensor parallelism may have additional communication overhead not captured in these estimates.

common.commonMistakes

tools.llm-checker.commonMistakes

Questions Fréquentes

Qu'est-ce que la VRAM et pourquoi est-elle importante pour les LLM ?
La VRAM (Video RAM) est la mémoire de votre GPU. Les LLM doivent charger leurs poids dans la VRAM pour fonctionner. Si votre GPU n'a pas assez de VRAM, le modèle ne se chargera pas ou fonctionnera très lentement avec le déchargement CPU.
Qu'est-ce que la quantification et comment affecte-t-elle la qualité ?
La quantification réduit la précision des poids du modèle pour économiser de la mémoire. Q4 (4 bits) utilise ~4x moins de VRAM que FP16 avec une perte de qualité modeste. Pour la plupart des usages, Q4 ou Q8 est suffisant.
Puis-je exécuter un modèle qui dépasse ma VRAM ?
Partiellement — des outils comme llama.cpp supportent le déchargement CPU, où certaines couches s'exécutent sur la RAM système. Cela fonctionne mais est nettement plus lent. Les Mac Apple Silicon peuvent utiliser la mémoire unifiée, rendant les grands modèles plus accessibles.
Comment la longueur du contexte affecte-t-elle l'utilisation de la VRAM ?
Des fenêtres de contexte plus longues nécessitent plus de mémoire de cache KV. Un modèle avec un contexte de 128K utilise beaucoup plus de VRAM qu'un modèle de 4K. Si vous n'avez pas besoin d'un long contexte, le réduire peut économiser beaucoup de VRAM.
Que signifie MoE (Mixture of Experts) pour la VRAM ?
Les modèles MoE comme Mixtral ont beaucoup de paramètres totaux mais n'en activent qu'une fraction à la fois. Cependant, tous les paramètres doivent être chargés en VRAM. Les 'paramètres actifs' n'affectent que la vitesse de calcul, pas les besoins en mémoire.
tools.llm-checker.faq.q6
tools.llm-checker.faq.a6
tools.llm-checker.faq.q7
tools.llm-checker.faq.a7
tools.llm-checker.faq.q8
tools.llm-checker.faq.a8

Guides Connexes

En savoir plus sur les concepts derrière cet outil