Sloth LabSlothLab Tools

API 가격 계산기

LLM API 비용을 제공업체별로 비교하세요. 요청당 및 월별 비용을 계산합니다.

사용 프리셋
tokens
tokens
/일

모델 (7/19)

비용 비교

모델제공업체입력 비용출력 비용합계/요청일별월별
GPT-4o Mini최저가OpenAI$0.0001$0.0003$0.0004$0.05$1.35
Gemini 2.5 FlashGoogle$0.0001$0.0003$0.0004$0.05$1.35
Claude 3.5 HaikuAnthropic$0.0008$0.0020$0.0028$0.28$8.40
Gemini 2.5 ProGoogle$0.0013$0.0050$0.0063$0.63$18.75
GPT-4oOpenAI$0.0025$0.0050$0.0075$0.75$22.50
Claude Sonnet 4Anthropic$0.0030$0.0075$0.0105$1.05$31.50
Claude Opus 4Anthropic$0.0150$0.0375$0.0525$5.25$157.50

요청당 비용 표시 | 비용 기준 정렬 (낮은 순)

월별 비용 비교

GPT-4o Mini
$1.35
Gemini 2.5 Flash
$1.35
Claude 3.5 Haiku
$8.40
Gemini 2.5 Pro
$18.75
GPT-4o
$22.50
Claude Sonnet 4
$31.50
Claude Opus 4
$157.50

최종 업데이트: March 16, 2026

작동 원리

LLM API는 토큰 사용량에 따라 과금됩니다. 토큰은 텍스트 조각으로, 영어 기준 약 4글자 또는 0.75단어에 해당합니다. 가격은 입력 토큰(프롬프트)과 출력 토큰(모델 응답)으로 나뉘며, 각각 100만 토큰당 과금됩니다. 이 계산기는 요청당 토큰 사용량에 일일 요청 수를 곱하여 여러 제공업체의 일별 및 월별 비용을 추정합니다.

common.whyThisMatters

tools.api-pricing.whyThisMatters

common.realWorldExamples

tools.api-pricing.realWorldExamples

방법론 및 출처

This calculator uses current API pricing data from major LLM providers including OpenAI, Anthropic, Google, Mistral, Meta, Cohere, and others. Prices are listed per million tokens for both input and output, reflecting the standard billing model used across the industry. Cost per request is calculated as: Total Cost = (Input Tokens × Input Price/1M) + (Output Tokens × Output Price/1M). Monthly estimates multiply per-request cost by the estimated number of requests per month. Token count estimation uses the general approximation of ~0.75 words per token for English text. Actual tokenization varies by model and tokenizer — GPT-4 and Claude use BPE tokenization, while other models may use SentencePiece or similar tokenizers. Data sources: Official API pricing pages from each provider, updated regularly. Prices reflect standard tier pricing without volume discounts or committed use agreements. Limitations: API pricing changes frequently as providers compete and release new models. Cached token pricing, batch processing discounts, and enterprise agreements may significantly reduce costs. The calculator does not account for rate limits, latency differences, or quality variations between models at different price points.

common.commonMistakes

tools.api-pricing.commonMistakes

자주 묻는 질문

API 비용은 어떻게 계산되나요?
API 제공업체는 처리된 토큰을 기준으로 과금합니다. 각 요청에는 입력 토큰(프롬프트)과 출력 토큰(모델 응답)이 있습니다. 비용 공식은 (input_tokens / 1,000,000) x input_price + (output_tokens / 1,000,000) x output_price입니다. 예를 들어, GPT-4o에 1,000개 입력 토큰과 500개 출력 토큰 요청 시 (1000/1M x $2.50) + (500/1M x $10.00) = $0.0025 + $0.005 = 요청당 $0.0075입니다.
토큰이란 무엇인가요?
토큰은 언어 모델이 처리하는 텍스트 조각입니다. 영어 기준 1토큰은 약 4글자 또는 약 0.75단어입니다. 따라서 영어 1,000단어 텍스트는 약 1,333토큰입니다. 다만, 토큰화는 언어에 따라 다르며 — 중국어, 일본어, 한국어 텍스트는 일반적으로 글자당 더 많은 토큰을 사용합니다. 코드도 특수 문자와 서식 때문에 더 많은 토큰을 사용하는 경향이 있습니다.
어떤 모델이 가성비가 좋은가요?
사용 사례에 따라 다릅니다. 분류나 추출 같은 단순 작업에는 GPT-4o Mini, Gemini 2.5 Flash, Claude 3.5 Haiku 같은 소형 모델이 훨씬 저렴한 비용으로 우수한 가성비를 제공합니다. 복잡한 추론, 코딩 또는 창작 작업에는 GPT-4o, Claude Sonnet 4, Gemini 2.5 Pro 같은 대형 모델이 더 나은 품질을 제공합니다. 항상 소형 모델부터 테스트해보세요 — 특정 작업에서 예상 외로 좋은 성능을 보일 수 있습니다.
Why is output pricing usually higher than input pricing?
Output tokens are more expensive because generating each output token requires a full forward pass through the model, making it computationally intensive. Input tokens, by contrast, can be processed in parallel during the prefill phase. Additionally, output generation is auto-regressive — each new token depends on all previous tokens — which limits parallelization and increases per-token compute cost. This is why output is typically 2-5x more expensive than input.
How can I reduce my LLM API costs?
Several strategies can significantly reduce API costs: (1) Use prompt caching for repeated context — many providers offer 50-90% discounts on cached tokens. (2) Choose the right model size — smaller models like GPT-4o-mini or Claude Haiku are 10-20x cheaper and sufficient for many tasks. (3) Optimize prompt length by removing unnecessary instructions or context. (4) Use batch processing APIs when real-time responses aren't needed. (5) Implement response length limits to avoid unnecessarily long outputs.
tools.api-pricing.faq.q6
tools.api-pricing.faq.a6
tools.api-pricing.faq.q7
tools.api-pricing.faq.a7
tools.api-pricing.faq.q8
tools.api-pricing.faq.a8

관련 가이드

이 도구의 개념에 대해 더 알아보세요