Escala visual comparando el consumo energético de distintos tipos de IA: texto, imagen, audio, código y vídeo

¿Cuánta energía consume la IA que usas cada día?

La guía definitiva del consumo energético por modelo y modalidad en 2026

Por AISHA · 12 de febrero de 2026 · 9 min de lectura

Generar 10 segundos de vídeo con Veo 3.1 puede consumir tanta energía como un microondas encendido durante 1-2 horas.

Las consultas de texto rondan ~0,3 Wh. El razonamiento suele moverse entre x 5 y x 130. La imagen entre x 0,3 y x 14. El vídeo comercial actual entre x 133 y x 1.400. Los agentes de código entre x 20 y x 150. La eficiencia mejora cada año, pero el consumo total sube porque cada mejora dispara el volumen de uso (Paradoja de Jevons).

Consumo energético por modalidad de IA

Escala logarítmica. El ancho usa un valor de referencia conservador; a la derecha se muestra el rango documentado en fuentes abiertas (0,3 Wh = x1).

Texto (flash)

x0,17-x0,8

Texto (frontier)

x0,8-x4

Razonamiento

x5-x130

Imagen

x0,3-x14

Audio

x0,8-x7

Agente código

x20-x150

Vídeo

x133-x1.400

Aunque cada consulta gaste menos, al hacer muchas más el gasto total sube

Eso es la Paradoja de Jevons: si algo se vuelve más barato y eficiente, se usa mucho más y el consumo total puede crecer

Serie 20242025202620272028
Eficiencia por token (Wh) 0,450,30,260,220,18
Consultas diarias (miles de millones) 0,71,53,569

0,24 Wh

Única medición directa (Google Gemini)

x 133-x1.400

Vídeo comercial actual vs texto

x 46

Variación entre modelos de imagen

x 514

Pico extremo en benchmark reasoning (Phi-4)

Generar 10 segundos de vídeo con Veo 3.1 puede consumir tanta energía como un microondas encendido durante 1-2 horas.

Esa frase no es una exageración retórica. Es un dato medido. Y es solo la punta del iceberg de una realidad que las empresas de IA prefieren no cuantificar en público.

En AISHA hemos recopilado, cruzado y verificado todas las mediciones disponibles a abril de 2026 — papers académicos, datos de producción, benchmarks independientes — para construir la guía más completa en español del consumo energético real de la inteligencia artificial.

Esto es lo que sabemos.


Todo empieza con un número: 0,3 Wh

Para hablar con números comparables, necesitamos un punto de partida. La unidad de referencia es la consulta estándar de texto: aproximadamente 0,3 Wh (vatios-hora).

¿Cuánto es eso? La energía que consume una bombilla LED de 10 vatios durante menos de dos minutos. Parece insignificante. Pero cuando se multiplica por los miles de millones de consultas diarias en el mundo, el impacto agregado deja de ser trivial.

Google es el único proveedor que ha publicado una medición directa de producción: 0,24 Wh como mediana para consultas de texto a Gemini (agosto 2025, medición de infraestructura real, no estimación). Sam Altman afirmó que ChatGPT consume 0,34 Wh de media, pero sin publicar ninguna metodología. Anthropic no ha publicado absolutamente nada.

Con esa referencia de 0,3 Wh como base (x1), podemos comparar todo lo demás.


Texto: la modalidad más barata (y la más desigual)

No todos los modelos de texto consumen lo mismo. La diferencia entre el más ligero y el más pesado supera las 40 veces. Esta tabla lo muestra:

ModeloConsumo por consultaMultiplicador
Gemini 2.5 Flash-Lite0,10 – 0,15 Whx0,3 – x0,5
Llama 4 Scout0,15 – 0,30 Whx0,5 – x1
DeepSeek V40,15 – 0,35 Whx0,5 – x1,2
GPT-5-mini0,20 – 0,40 Whx0,7 – x1,3
Mistral Large0,25 – 0,50 Whx0,8 – x1,7
Claude Sonnet 4.60,40 – 0,90 Whx1,3 – x3
GPT-5.40,50 – 1,20 Whx1,7 – x4
Gemini 2.5 Ultra0,35 – 0,70 Whx1,2 – x2,3
Claude Opus 4.6~4 Wh (estimado)~x13

Los modelos “flash” o “mini” son entre 3 y 10 veces más eficientes que los modelos frontier completos. Para la inmensa mayoría de tareas cotidianas — resumir un texto, redactar un email, responder una pregunta factual — el modelo pequeño es suficiente.

La elección del modelo no es neutral. Elegir mal puede multiplicar tu consumo por 26 veces para la misma tarea.


Razonamiento: cuando pensar puede costar hasta 130 veces más

La revolución de los “thinking models” — modelos que razonan internamente antes de responder — ha cambiado radicalmente la ecuación energética. Generan cadenas de pensamiento de decenas de miles de tokens antes de dar una respuesta, y ese proceso interno consume energía.

El siguiente cuadro recoge las mediciones disponibles para los principales modos de razonamiento:

ModoConsumoMultiplicador vs. texto base
GPT-5.4 con razonamiento4 – 18 Whx13 – x60
Claude con Extended Thinking2 – 8 Whx7 – x27
o3 (prompts largos)~39 Wh~x130
Deep Research (cualquier proveedor)10 – 40 Whx33 – x133

En el peor caso, una sola consulta con razonamiento consume lo mismo que 130 consultas de texto normales.

El Hugging Face AI Energy Score v2 (diciembre 2025), que mide 205 modelos de código abierto en GPUs H100, encontró resultados aún más extremos:

  • Phi-4-reasoning-plus: multiplicador de x514 al activar razonamiento (de 0,018 Wh a 9,46 Wh)
  • DeepSeek-R1-Distill-Llama-70B: multiplicador de x154 (de 0,050 Wh a 7,63 Wh)
  • SmolLM3-3B: 13 Wh para una sola pregunta con razonamiento activado

Activar el modo razonamiento cuando no es necesario es como usar un camión de 40 toneladas para ir a comprar el pan.


Imágenes: cada foto de IA equivale a cargar tu móvil

La investigación de Bertazzini et al. (junio 2025) midió 17 modelos de difusión en una RTX 4090 y encontró una variación de 46 veces entre el más eficiente y el menos eficiente.

Estos son los extremos del espectro:

ModeloConsumo por imagenEquivalencia
LCM_SSD_1B (más eficiente)0,086 Wh~0,3 consultas de texto
Ideogram 30,8 – 2,5 Wh3 – 8 consultas
Midjourney v71 – 4 Wh3 – 13 consultas
DALL-E 42 – 6 Wh7 – 20 consultas
Imagen nativa GPT-4o~3 Wh~10 consultas
Lumina (menos eficiente)4,08 Wh~14 consultas

La diferencia entre el modelo más barato y el más caro es la diferencia entre encender una linterna y encender un horno.

Un hallazgo contraintuitivo: la cuantización int8, que se supone que reduce el consumo, en realidad lo aumenta hasta un 64,5% en algunos modelos de imagen. La eficiencia no siempre es lo que parece.

700 millones de imágenes en una semana. Eso es lo que generaron los usuarios cuando OpenAI lanzó la generación nativa de imágenes en GPT-4o. Equivale a aproximadamente 2.100 MWh solo en generación de imágenes, en siete días.


Vídeo: el gran devorador de energía

Si el texto es la bicicleta, el vídeo es el avión. La investigación de Delavande y Luccioni (septiembre 2025) midió 7 modelos de vídeo de código abierto en H100 y documentó un rango de 800 veces entre el más barato y el más caro.

Estos números hablan por sí solos:

ModeloDuraciónConsumoMultiplicador vs. texto
AnimateDiff (más eficiente)2 seg0,14 Whx0,5
Runway Gen-35 seg3 – 8 Whx10 – x27
WAN2.1-14B5 seg~109 Wh~x363
Kling 3.015 seg~400 Wh~x1.333
Sora 210 seg~1.000 Wh~x3.333

944 Wh por clip de 5 segundos. Eso es lo que consumía Sora — tanta energía como cargar un smartphone durante un mes. OpenAI lo cerró el 24 de marzo de 2026 tras acumular ingresos totales de 2,1 millones de dólares frente a costes operativos estimados de 15 millones de dólares diarios.

Un detalle técnico que agrava el problema: duplicar la duración del vídeo cuadruplica el consumo energético. La relación no es lineal — es exponencial.


Audio: la modalidad que nadie mide

Passoni et al. (mayo 2025) publicaron el único paper con mediciones de generación de audio (texto-a-audio), con 7 modelos en GPUs NVIDIA A40:

  • AudioLDM (más eficiente): ~0,25 Wh por clip de 10 segundos
  • Tango2 (menos eficiente): ~2,0 Wh por clip de 10 segundos

El hallazgo preocupante: los modelos más nuevos consumen consistentemente más energía que los antiguos. La industria prioriza la calidad sobre la eficiencia, sin excepciones.

Un solo paper. Siete modelos. Cero datos de los servicios comerciales. Esa es toda la transparencia que existe hoy en audio generativo.


Agentes de código: 136 consultas en una sola sesión

Los agentes de código representan un nuevo paradigma de consumo. Simon P. Couch analizó sesiones de Claude Code (enero 2026) y encontró que una sesión mediana procesa 592.000 tokens y consume aproximadamente 41 Wh — el equivalente a 136 consultas de texto convencionales.

Las sesiones complejas pueden alcanzar 50 a 200 Wh. Un desarrollador que usa agentes de código durante una jornada completa puede consumir tanta energía como un hogar europeo medio en un día.

Un desarrollador con un agente de código encendido ocho horas consume lo mismo que su nevera en 24 horas.


La paradoja que lo explica todo

Este es quizás el dato más importante de toda la guía: la eficiencia por consulta mejora constantemente, pero el consumo total no deja de crecer.

Google demostró una mejora de eficiencia de 33 veces en 12 meses (mayo 2024 a mayo 2025). Y sin embargo, sus emisiones totales de carbono aumentaron un 48-50% en el mismo periodo. Su consumo eléctrico real creció un 27%, aunque su contabilidad basada en certificados de energía renovable (market-based) declaró una “reducción del 12%”.

Es la Paradoja de Jevons aplicada a la IA: cuando un recurso se usa de forma más eficiente, su coste baja, se vuelve más accesible, el volumen de uso se dispara y el consumo total aumenta.

Los datos lo confirman:

  • Eficiencia por token: mejora un 15-30% anual
  • Volumen de consultas diarias: crece de 0,4-1,0 mil millones (2024) a 2,5-5,0 mil millones (2026)
  • Resultado neto: el consumo total sube un 25% anual

La eficiencia es necesaria pero insuficiente. Sin gobernanza de la demanda — elegir el modelo adecuado, evitar el uso innecesario, medir el impacto — la mejora tecnológica solo acelera el problema.


Los agujeros negros: lo que NO sabemos

Todo lo anterior se basa en las mediciones que existen. Pero hay categorías enteras de las que no tenemos ningún dato:

  • Deep Research de cualquier proveedor (las estimaciones varían entre 10 y 40 Wh — un rango de x4)
  • Generación de imagen comercial (DALL-E, Midjourney, Ideogram están excluidos de los benchmarks académicos)
  • Sora y modelos de vídeo propietarios (las estimaciones variaban x27: de 35 a 936 Wh)
  • Generación de música (Suno, Udio: literalmente cero datos publicados)
  • Inferencia propietaria (GPT-5, Claude en producción, Grok: sin mediciones independientes)

La barrera no es técnica. NVIDIA DCGM, el sistema de monitorización de GPUs, ya está desplegado en cada centro de datos del mundo. Las APIs ya reportan costes en dólares por llamada. Añadir un campo energy_wh sería trivial.

Las empresas eligen no hacerlo. La barrera es política, no técnica.


¿Qué puedo hacer yo?

  • Si eres usuario: Usa nuestra calculadora de huella de IA para estimar tu consumo. Como regla general: texto < imagen < audio < código < razonamiento < vídeo. El modelo más pequeño que resuelva tu tarea es siempre la mejor elección.

  • Si eres empresa: El consumo de IA ya es parte de tu huella de carbono bajo CSRD. Exige a tus proveedores datos de consumo por servicio. Si Google puede publicar 0,24 Wh, los demás también pueden.

  • Si eres desarrollador: Flash/mini por defecto. Razonamiento solo cuando el problema lo requiera. Cachea resultados. Cada decisión de arquitectura tiene un coste energético que se multiplica por millones de usuarios.

  • Si eres regulador: La medición es posible hoy, con tecnología que ya existe en cada datacenter. Las etiquetas energéticas de electrodomésticos redujeron el consumo un 60% en 30 años. La IA necesita su propia etiqueta.

Fuentes

Relacionados

Seguir explorando AISHA

Siguiente paso

Calcula el impacto aproximado del uso que haces de la IA.

Nuestra calculadora te ayuda a poner en contexto consultas, imágenes, razonamiento y agentes.

Abrir calculadora