Question 1

VRAM이란 무엇이고 왜 LLM에 중요한가요?

Accepted Answer

VRAM(비디오 RAM)은 GPU의 메모리입니다. LLM은 실행하려면 가중치를 VRAM에 로드해야 합니다. GPU의 VRAM이 부족하면 모델이 로드되지 않거나 CPU 오프로딩으로 매우 느리게 실행됩니다.

Question 2

양자화란 무엇이며 품질에 어떤 영향을 미치나요?

Accepted Answer

양자화는 메모리를 절약하기 위해 모델 가중치의 정밀도를 줄입니다. Q4(4비트)는 FP16보다 약 4배 적은 VRAM을 사용하며 약간의 품질 손실이 있습니다. 대부분의 용도에 Q4 또는 Q8이면 충분합니다.

Question 3

VRAM을 초과하는 모델을 실행할 수 있나요?

Accepted Answer

부분적으로 가능합니다. llama.cpp 같은 도구는 일부 레이어를 시스템 RAM에서 실행하는 CPU 오프로딩을 지원합니다. 작동하지만 상당히 느립니다. Apple Silicon Mac은 통합 메모리를 사용하여 더 접근성이 좋습니다.

Question 4

컨텍스트 길이는 VRAM 사용량에 어떤 영향을 미치나요?

Accepted Answer

긴 컨텍스트 윈도우는 더 많은 KV 캐시 메모리가 필요합니다. 128K 컨텍스트 모델은 4K 컨텍스트 모델보다 훨씬 더 많은 VRAM을 사용합니다. 긴 컨텍스트가 필요 없다면 줄이면 VRAM을 절약할 수 있습니다.

Question 5

MoE(Mixture of Experts)는 VRAM에 어떤 의미인가요?

Accepted Answer

Mixtral 같은 MoE 모델은 총 파라미터가 많지만 한 번에 일부만 활성화합니다. 그러나 모든 파라미터는 여전히 VRAM에 로드되어야 합니다. '활성 파라미터'는 연산 속도에만 영향을 미치며 메모리 요구량에는 영향을 미치지 않습니다.

Question 6

tools.llm-checker.faq.q6

Accepted Answer

tools.llm-checker.faq.a6

Question 7

tools.llm-checker.faq.q7

Accepted Answer

tools.llm-checker.faq.a7

Question 8

tools.llm-checker.faq.q8

Accepted Answer

tools.llm-checker.faq.a8

LLM VRAM 체커

모델 설정