Texto (flash)
x0,17-x0,8
Consumo
La guía definitiva del consumo energético por modelo y modalidad en 2026
Generar 10 segundos de vídeo con Veo 3.1 puede consumir tanta energía como un microondas encendido durante 1-2 horas.
Las consultas de texto rondan ~0,3 Wh. El razonamiento suele moverse entre x 5 y x 130. La imagen entre x 0,3 y x 14. El vídeo comercial actual entre x 133 y x 1.400. Los agentes de código entre x 20 y x 150. La eficiencia mejora cada año, pero el consumo total sube porque cada mejora dispara el volumen de uso (Paradoja de Jevons).
Escala logarítmica. El ancho usa un valor de referencia conservador; a la derecha se muestra el rango documentado en fuentes abiertas (0,3 Wh = x1).
Eso es la Paradoja de Jevons: si algo se vuelve más barato y eficiente, se usa mucho más y el consumo total puede crecer
| Serie | 2024 | 2025 | 2026 | 2027 | 2028 |
|---|---|---|---|---|---|
| Eficiencia por token (Wh) | 0,45 | 0,3 | 0,26 | 0,22 | 0,18 |
| Consultas diarias (miles de millones) | 0,7 | 1,5 | 3,5 | 6 | 9 |
0,24 Wh
Única medición directa (Google Gemini)
x 133-x1.400
Vídeo comercial actual vs texto
x 46
Variación entre modelos de imagen
x 514
Pico extremo en benchmark reasoning (Phi-4)
Generar 10 segundos de vídeo con Veo 3.1 puede consumir tanta energía como un microondas encendido durante 1-2 horas.
Esa frase no es una exageración retórica. Es un dato medido. Y es solo la punta del iceberg de una realidad que las empresas de IA prefieren no cuantificar en público.
En AISHA hemos recopilado, cruzado y verificado todas las mediciones disponibles a abril de 2026 — papers académicos, datos de producción, benchmarks independientes — para construir la guía más completa en español del consumo energético real de la inteligencia artificial.
Esto es lo que sabemos.
Para hablar con números comparables, necesitamos un punto de partida. La unidad de referencia es la consulta estándar de texto: aproximadamente 0,3 Wh (vatios-hora).
¿Cuánto es eso? La energía que consume una bombilla LED de 10 vatios durante menos de dos minutos. Parece insignificante. Pero cuando se multiplica por los miles de millones de consultas diarias en el mundo, el impacto agregado deja de ser trivial.
Google es el único proveedor que ha publicado una medición directa de producción: 0,24 Wh como mediana para consultas de texto a Gemini (agosto 2025, medición de infraestructura real, no estimación). Sam Altman afirmó que ChatGPT consume 0,34 Wh de media, pero sin publicar ninguna metodología. Anthropic no ha publicado absolutamente nada.
Con esa referencia de 0,3 Wh como base (x1), podemos comparar todo lo demás.
No todos los modelos de texto consumen lo mismo. La diferencia entre el más ligero y el más pesado supera las 40 veces. Esta tabla lo muestra:
| Modelo | Consumo por consulta | Multiplicador |
|---|---|---|
| Gemini 2.5 Flash-Lite | 0,10 – 0,15 Wh | x0,3 – x0,5 |
| Llama 4 Scout | 0,15 – 0,30 Wh | x0,5 – x1 |
| DeepSeek V4 | 0,15 – 0,35 Wh | x0,5 – x1,2 |
| GPT-5-mini | 0,20 – 0,40 Wh | x0,7 – x1,3 |
| Mistral Large | 0,25 – 0,50 Wh | x0,8 – x1,7 |
| Claude Sonnet 4.6 | 0,40 – 0,90 Wh | x1,3 – x3 |
| GPT-5.4 | 0,50 – 1,20 Wh | x1,7 – x4 |
| Gemini 2.5 Ultra | 0,35 – 0,70 Wh | x1,2 – x2,3 |
| Claude Opus 4.6 | ~4 Wh (estimado) | ~x13 |
Los modelos “flash” o “mini” son entre 3 y 10 veces más eficientes que los modelos frontier completos. Para la inmensa mayoría de tareas cotidianas — resumir un texto, redactar un email, responder una pregunta factual — el modelo pequeño es suficiente.
La elección del modelo no es neutral. Elegir mal puede multiplicar tu consumo por 26 veces para la misma tarea.
La revolución de los “thinking models” — modelos que razonan internamente antes de responder — ha cambiado radicalmente la ecuación energética. Generan cadenas de pensamiento de decenas de miles de tokens antes de dar una respuesta, y ese proceso interno consume energía.
El siguiente cuadro recoge las mediciones disponibles para los principales modos de razonamiento:
| Modo | Consumo | Multiplicador vs. texto base |
|---|---|---|
| GPT-5.4 con razonamiento | 4 – 18 Wh | x13 – x60 |
| Claude con Extended Thinking | 2 – 8 Wh | x7 – x27 |
| o3 (prompts largos) | ~39 Wh | ~x130 |
| Deep Research (cualquier proveedor) | 10 – 40 Wh | x33 – x133 |
En el peor caso, una sola consulta con razonamiento consume lo mismo que 130 consultas de texto normales.
El Hugging Face AI Energy Score v2 (diciembre 2025), que mide 205 modelos de código abierto en GPUs H100, encontró resultados aún más extremos:
Activar el modo razonamiento cuando no es necesario es como usar un camión de 40 toneladas para ir a comprar el pan.
La investigación de Bertazzini et al. (junio 2025) midió 17 modelos de difusión en una RTX 4090 y encontró una variación de 46 veces entre el más eficiente y el menos eficiente.
Estos son los extremos del espectro:
| Modelo | Consumo por imagen | Equivalencia |
|---|---|---|
| LCM_SSD_1B (más eficiente) | 0,086 Wh | ~0,3 consultas de texto |
| Ideogram 3 | 0,8 – 2,5 Wh | 3 – 8 consultas |
| Midjourney v7 | 1 – 4 Wh | 3 – 13 consultas |
| DALL-E 4 | 2 – 6 Wh | 7 – 20 consultas |
| Imagen nativa GPT-4o | ~3 Wh | ~10 consultas |
| Lumina (menos eficiente) | 4,08 Wh | ~14 consultas |
La diferencia entre el modelo más barato y el más caro es la diferencia entre encender una linterna y encender un horno.
Un hallazgo contraintuitivo: la cuantización int8, que se supone que reduce el consumo, en realidad lo aumenta hasta un 64,5% en algunos modelos de imagen. La eficiencia no siempre es lo que parece.
700 millones de imágenes en una semana. Eso es lo que generaron los usuarios cuando OpenAI lanzó la generación nativa de imágenes en GPT-4o. Equivale a aproximadamente 2.100 MWh solo en generación de imágenes, en siete días.
Si el texto es la bicicleta, el vídeo es el avión. La investigación de Delavande y Luccioni (septiembre 2025) midió 7 modelos de vídeo de código abierto en H100 y documentó un rango de 800 veces entre el más barato y el más caro.
Estos números hablan por sí solos:
| Modelo | Duración | Consumo | Multiplicador vs. texto |
|---|---|---|---|
| AnimateDiff (más eficiente) | 2 seg | 0,14 Wh | x0,5 |
| Runway Gen-3 | 5 seg | 3 – 8 Wh | x10 – x27 |
| WAN2.1-14B | 5 seg | ~109 Wh | ~x363 |
| Kling 3.0 | 15 seg | ~400 Wh | ~x1.333 |
| Sora 2 | 10 seg | ~1.000 Wh | ~x3.333 |
944 Wh por clip de 5 segundos. Eso es lo que consumía Sora — tanta energía como cargar un smartphone durante un mes. OpenAI lo cerró el 24 de marzo de 2026 tras acumular ingresos totales de 2,1 millones de dólares frente a costes operativos estimados de 15 millones de dólares diarios.
Un detalle técnico que agrava el problema: duplicar la duración del vídeo cuadruplica el consumo energético. La relación no es lineal — es exponencial.
Passoni et al. (mayo 2025) publicaron el único paper con mediciones de generación de audio (texto-a-audio), con 7 modelos en GPUs NVIDIA A40:
El hallazgo preocupante: los modelos más nuevos consumen consistentemente más energía que los antiguos. La industria prioriza la calidad sobre la eficiencia, sin excepciones.
Un solo paper. Siete modelos. Cero datos de los servicios comerciales. Esa es toda la transparencia que existe hoy en audio generativo.
Los agentes de código representan un nuevo paradigma de consumo. Simon P. Couch analizó sesiones de Claude Code (enero 2026) y encontró que una sesión mediana procesa 592.000 tokens y consume aproximadamente 41 Wh — el equivalente a 136 consultas de texto convencionales.
Las sesiones complejas pueden alcanzar 50 a 200 Wh. Un desarrollador que usa agentes de código durante una jornada completa puede consumir tanta energía como un hogar europeo medio en un día.
Un desarrollador con un agente de código encendido ocho horas consume lo mismo que su nevera en 24 horas.
Este es quizás el dato más importante de toda la guía: la eficiencia por consulta mejora constantemente, pero el consumo total no deja de crecer.
Google demostró una mejora de eficiencia de 33 veces en 12 meses (mayo 2024 a mayo 2025). Y sin embargo, sus emisiones totales de carbono aumentaron un 48-50% en el mismo periodo. Su consumo eléctrico real creció un 27%, aunque su contabilidad basada en certificados de energía renovable (market-based) declaró una “reducción del 12%”.
Es la Paradoja de Jevons aplicada a la IA: cuando un recurso se usa de forma más eficiente, su coste baja, se vuelve más accesible, el volumen de uso se dispara y el consumo total aumenta.
Los datos lo confirman:
La eficiencia es necesaria pero insuficiente. Sin gobernanza de la demanda — elegir el modelo adecuado, evitar el uso innecesario, medir el impacto — la mejora tecnológica solo acelera el problema.
Todo lo anterior se basa en las mediciones que existen. Pero hay categorías enteras de las que no tenemos ningún dato:
La barrera no es técnica. NVIDIA DCGM, el sistema de monitorización de GPUs, ya está desplegado en cada centro de datos del mundo. Las APIs ya reportan costes en dólares por llamada. Añadir un campo energy_wh sería trivial.
Las empresas eligen no hacerlo. La barrera es política, no técnica.
Si eres usuario: Usa nuestra calculadora de huella de IA para estimar tu consumo. Como regla general: texto < imagen < audio < código < razonamiento < vídeo. El modelo más pequeño que resuelva tu tarea es siempre la mejor elección.
Si eres empresa: El consumo de IA ya es parte de tu huella de carbono bajo CSRD. Exige a tus proveedores datos de consumo por servicio. Si Google puede publicar 0,24 Wh, los demás también pueden.
Si eres desarrollador: Flash/mini por defecto. Razonamiento solo cuando el problema lo requiera. Cachea resultados. Cada decisión de arquitectura tiene un coste energético que se multiplica por millones de usuarios.
Si eres regulador: La medición es posible hoy, con tecnología que ya existe en cada datacenter. Las etiquetas energéticas de electrodomésticos redujeron el consumo un 60% en 30 años. La IA necesita su propia etiqueta.
Relacionados
La brecha entre la inversión en IA y el valor real que genera — y qué pueden hacer las empresas para estar en el 5% que sí funciona
Manifiesto AISHA: por qué defendemos la inteligencia artificial y por qué exigimos que se use de forma responsable
Nuestra calculadora te ayuda a poner en contexto consultas, imágenes, razonamiento y agentes.
Abrir calculadora