Sloth LabSlothLab Tools

Calculadora de Precios de API

Compara los costos de API de LLM entre proveedores. Calcula el gasto por solicitud y mensual.

Presets de uso
tokens
tokens
/día

Modelo (7/19)

Comparación de Costos

ModeloProveedorCosto de EntradaCosto de SalidaTotal/Sol.DiarioMensual
GPT-4o MiniMás baratoOpenAI$0.0001$0.0003$0.0004$0.05$1.35
Gemini 2.5 FlashGoogle$0.0001$0.0003$0.0004$0.05$1.35
Claude 3.5 HaikuAnthropic$0.0008$0.0020$0.0028$0.28$8.40
Gemini 2.5 ProGoogle$0.0013$0.0050$0.0063$0.63$18.75
GPT-4oOpenAI$0.0025$0.0050$0.0075$0.75$22.50
Claude Sonnet 4Anthropic$0.0030$0.0075$0.0105$1.05$31.50
Claude Opus 4Anthropic$0.0150$0.0375$0.0525$5.25$157.50

Costos mostrados por solicitud | Ordenado por costo (menor primero)

Comparación de costos mensuales

GPT-4o Mini
$1.35
Gemini 2.5 Flash
$1.35
Claude 3.5 Haiku
$8.40
Gemini 2.5 Pro
$18.75
GPT-4o
$22.50
Claude Sonnet 4
$31.50
Claude Opus 4
$157.50

Última Actualización: March 16, 2026

Cómo Funciona

Las API de LLM cobran según el uso de tokens. Los tokens son fragmentos de texto — aproximadamente 4 caracteres o 0.75 palabras en inglés. El precio se divide en tokens de entrada (tu prompt) y tokens de salida (la respuesta del modelo), cada uno cobrado por cada millón de tokens. Esta calculadora multiplica tu uso de tokens por solicitud por el número de solicitudes diarias para estimar los costos diarios y mensuales entre múltiples proveedores.

common.whyThisMatters

tools.api-pricing.whyThisMatters

common.realWorldExamples

tools.api-pricing.realWorldExamples

Metodología y Fuentes

This calculator uses current API pricing data from major LLM providers including OpenAI, Anthropic, Google, Mistral, Meta, Cohere, and others. Prices are listed per million tokens for both input and output, reflecting the standard billing model used across the industry. Cost per request is calculated as: Total Cost = (Input Tokens × Input Price/1M) + (Output Tokens × Output Price/1M). Monthly estimates multiply per-request cost by the estimated number of requests per month. Token count estimation uses the general approximation of ~0.75 words per token for English text. Actual tokenization varies by model and tokenizer — GPT-4 and Claude use BPE tokenization, while other models may use SentencePiece or similar tokenizers. Data sources: Official API pricing pages from each provider, updated regularly. Prices reflect standard tier pricing without volume discounts or committed use agreements. Limitations: API pricing changes frequently as providers compete and release new models. Cached token pricing, batch processing discounts, and enterprise agreements may significantly reduce costs. The calculator does not account for rate limits, latency differences, or quality variations between models at different price points.

common.commonMistakes

tools.api-pricing.commonMistakes

Preguntas Frecuentes

¿Cómo se calculan los costos de API?
Los proveedores de API cobran según los tokens procesados. Cada solicitud tiene tokens de entrada (tu prompt) y tokens de salida (la respuesta del modelo). La fórmula de costo es: (tokens_entrada / 1,000,000) × precio_entrada + (tokens_salida / 1,000,000) × precio_salida. Por ejemplo, una solicitud con 1,000 tokens de entrada y 500 tokens de salida a GPT-4o cuesta (1000/1M × $2.50) + (500/1M × $10.00) = $0.0025 + $0.005 = $0.0075 por solicitud.
¿Qué es un token?
Un token es un fragmento de texto que los modelos de lenguaje procesan. En inglés, un token equivale aproximadamente a 4 caracteres o unas 0.75 palabras. Así, un texto en inglés de 1,000 palabras son aproximadamente 1,333 tokens. Sin embargo, la tokenización varía según el idioma — los textos en chino, japonés y coreano típicamente usan más tokens por carácter. El código también tiende a usar más tokens debido a caracteres especiales y formato.
¿Qué modelo ofrece la mejor relación calidad-precio?
Depende de tu caso de uso. Para tareas simples como clasificación o extracción, modelos más pequeños como GPT-4o Mini, Gemini 2.5 Flash o Claude 3.5 Haiku ofrecen excelente valor a una fracción del costo. Para razonamiento complejo, programación o tareas creativas, modelos más grandes como GPT-4o, Claude Sonnet 4 o Gemini 2.5 Pro proporcionan mejor calidad. Siempre prueba primero con modelos más pequeños — podrías sorprenderte de lo bien que funcionan para tu tarea específica.
Why is output pricing usually higher than input pricing?
Output tokens are more expensive because generating each output token requires a full forward pass through the model, making it computationally intensive. Input tokens, by contrast, can be processed in parallel during the prefill phase. Additionally, output generation is auto-regressive — each new token depends on all previous tokens — which limits parallelization and increases per-token compute cost. This is why output is typically 2-5x more expensive than input.
How can I reduce my LLM API costs?
Several strategies can significantly reduce API costs: (1) Use prompt caching for repeated context — many providers offer 50-90% discounts on cached tokens. (2) Choose the right model size — smaller models like GPT-4o-mini or Claude Haiku are 10-20x cheaper and sufficient for many tasks. (3) Optimize prompt length by removing unnecessary instructions or context. (4) Use batch processing APIs when real-time responses aren't needed. (5) Implement response length limits to avoid unnecessarily long outputs.
tools.api-pricing.faq.q6
tools.api-pricing.faq.a6
tools.api-pricing.faq.q7
tools.api-pricing.faq.a7
tools.api-pricing.faq.q8
tools.api-pricing.faq.a8

Guías Relacionadas

Aprende más sobre los conceptos detrás de esta herramienta