Calculadora de Preços de API
Compare custos de API de LLM entre provedores. Calcule gastos por requisição e mensais.
Presets de uso
tokens
tokens
/dia
Modelo (7/19)
Comparação de Custos
| Modelo | Provedor | Custo de Entrada | Custo de Saída | Total/Req | Diário | Mensal |
|---|---|---|---|---|---|---|
| GPT-4o MiniMais Barato | OpenAI | $0.0001 | $0.0003 | $0.0004 | $0.05 | $1.35 |
| Gemini 2.5 Flash | $0.0001 | $0.0003 | $0.0004 | $0.05 | $1.35 | |
| Claude 3.5 Haiku | Anthropic | $0.0008 | $0.0020 | $0.0028 | $0.28 | $8.40 |
| Gemini 2.5 Pro | $0.0013 | $0.0050 | $0.0063 | $0.63 | $18.75 | |
| GPT-4o | OpenAI | $0.0025 | $0.0050 | $0.0075 | $0.75 | $22.50 |
| Claude Sonnet 4 | Anthropic | $0.0030 | $0.0075 | $0.0105 | $1.05 | $31.50 |
| Claude Opus 4 | Anthropic | $0.0150 | $0.0375 | $0.0525 | $5.25 | $157.50 |
Custos exibidos por requisição | Ordenado por custo (menor primeiro)
Comparação de custos mensais
GPT-4o Mini$1.35
Gemini 2.5 Flash$1.35
Claude 3.5 Haiku$8.40
Gemini 2.5 Pro$18.75
GPT-4o$22.50
Claude Sonnet 4$31.50
Claude Opus 4$157.50
Última Atualização: March 16, 2026
Como Funciona
APIs de LLM cobram com base no uso de tokens. Tokens são fragmentos de texto — aproximadamente 4 caracteres ou 0,75 palavras em inglês. O preço é dividido entre tokens de entrada (seu prompt) e tokens de saída (a resposta do modelo), cada um cobrado por 1 milhão de tokens. Esta calculadora multiplica o uso de tokens por requisição pelo número de requisições diárias para estimar custos diários e mensais em múltiplos provedores.
common.whyThisMatters
tools.api-pricing.whyThisMatters
common.realWorldExamples
tools.api-pricing.realWorldExamples
Metodologia e Fontes
This calculator uses current API pricing data from major LLM providers including OpenAI, Anthropic, Google, Mistral, Meta, Cohere, and others. Prices are listed per million tokens for both input and output, reflecting the standard billing model used across the industry.
Cost per request is calculated as: Total Cost = (Input Tokens × Input Price/1M) + (Output Tokens × Output Price/1M). Monthly estimates multiply per-request cost by the estimated number of requests per month.
Token count estimation uses the general approximation of ~0.75 words per token for English text. Actual tokenization varies by model and tokenizer — GPT-4 and Claude use BPE tokenization, while other models may use SentencePiece or similar tokenizers.
Data sources: Official API pricing pages from each provider, updated regularly. Prices reflect standard tier pricing without volume discounts or committed use agreements.
Limitations: API pricing changes frequently as providers compete and release new models. Cached token pricing, batch processing discounts, and enterprise agreements may significantly reduce costs. The calculator does not account for rate limits, latency differences, or quality variations between models at different price points.
common.commonMistakes
tools.api-pricing.commonMistakes
Perguntas Frequentes
Como os custos de API são calculados?
Os provedores de API cobram com base nos tokens processados. Cada requisição tem tokens de entrada (seu prompt) e tokens de saída (a resposta do modelo). A fórmula de custo é: (tokens_entrada / 1.000.000) × preço_entrada + (tokens_saída / 1.000.000) × preço_saída. Por exemplo, uma requisição com 1.000 tokens de entrada e 500 tokens de saída para GPT-4o custa (1000/1M × $2,50) + (500/1M × $10,00) = $0,0025 + $0,005 = $0,0075 por requisição.
O que é um token?
Um token é um fragmento de texto que os modelos de linguagem processam. Em inglês, um token equivale a aproximadamente 4 caracteres ou cerca de 0,75 palavras. Portanto, um texto de 1.000 palavras em inglês tem aproximadamente 1.333 tokens. No entanto, a tokenização varia por idioma — textos em chinês, japonês e coreano normalmente usam mais tokens por caractere. Código também tende a usar mais tokens devido a caracteres especiais e formatação.
Qual modelo oferece o melhor custo-benefício?
Depende do seu caso de uso. Para tarefas simples como classificação ou extração, modelos menores como GPT-4o Mini, Gemini 2.5 Flash ou Claude 3.5 Haiku oferecem excelente custo-benefício por uma fração do preço. Para raciocínio complexo, programação ou tarefas criativas, modelos maiores como GPT-4o, Claude Sonnet 4 ou Gemini 2.5 Pro proporcionam melhor qualidade. Sempre teste com modelos menores primeiro — você pode se surpreender com o desempenho deles para a sua tarefa específica.
Why is output pricing usually higher than input pricing?
Output tokens are more expensive because generating each output token requires a full forward pass through the model, making it computationally intensive. Input tokens, by contrast, can be processed in parallel during the prefill phase. Additionally, output generation is auto-regressive — each new token depends on all previous tokens — which limits parallelization and increases per-token compute cost. This is why output is typically 2-5x more expensive than input.
How can I reduce my LLM API costs?
Several strategies can significantly reduce API costs: (1) Use prompt caching for repeated context — many providers offer 50-90% discounts on cached tokens. (2) Choose the right model size — smaller models like GPT-4o-mini or Claude Haiku are 10-20x cheaper and sufficient for many tasks. (3) Optimize prompt length by removing unnecessary instructions or context. (4) Use batch processing APIs when real-time responses aren't needed. (5) Implement response length limits to avoid unnecessarily long outputs.
tools.api-pricing.faq.q6
tools.api-pricing.faq.a6
tools.api-pricing.faq.q7
tools.api-pricing.faq.a7
tools.api-pricing.faq.q8
tools.api-pricing.faq.a8
Ferramentas Relacionadas
Guias Relacionados
Saiba mais sobre os conceitos por trás desta ferramenta