Gemini 2.5 Flash-Lite (consulta rápida)
0,17 x
Consumo
Cuánta energía cuesta que la IA 'piense' de verdad — y por qué el modo de razonamiento activado por defecto es un problema
Una consulta larga con razonamiento al modelo o3 de OpenAI consume 39,2 Wh — medición directa. Eso es x 131 más que una consulta de texto simple (0,3 Wh). Y hay modelos donde el multiplicador llega a x 514.
El razonamiento de IA — la capacidad de 'pensar antes de responder' — multiplica el consumo energético entre x 10 y x 500 según el modelo y la tarea. Los modelos de razonamiento consumen de media x 30 más que los modelos estándar. Los agentes de código alcanzan 41 Wh por sesión mediana (x 137). Y los sistemas de Deep Research superan los 100 Wh por informe. El problema: muchos modelos activan el razonamiento por defecto, incluso cuando no hace falta.
x 131
Multiplicador de o3 razonamiento largo (medido)
x 30
Media de modelos de razonamiento vs estándar (HF)
41 Wh
Sesión mediana de Claude Code (medida)
70 %
Tokens desperdiciados en agentes de código
39,2 Wh. Eso es lo que consume una consulta larga con razonamiento al modelo o3 de OpenAI — medición directa, confianza alta. Es x131 más que una consulta simple de texto (0,3 Wh). La misma energía que cargar tu smartphone casi tres veces.
Y o3 no es el caso extremo. El AI Energy Score v2 de Hugging Face encontró que los modelos de razonamiento consumen de media x30 más que los estándar. Algunos llegan a x700.
La diferencia entre preguntarle algo a una IA y pedirle que piense no es incremental. Es de órdenes de magnitud.
Desde 2024, los principales modelos de IA incorporan un modo de “razonamiento” o “thinking”: en vez de responder inmediatamente, el modelo genera una cadena interna de pensamiento — a veces miles de tokens invisibles — antes de producir la respuesta final.
Este proceso es computacionalmente muy caro porque:
Dauner y Socher documentaron que los modelos de razonamiento emiten hasta x50 más CO₂ que los modelos concisos, con un caso de 37.575 tokens para una sola respuesta.
El AI Energy Score v2 de Hugging Face (diciembre 2025), basado en mediciones directas en hardware H100, proporciona los datos más sólidos:
| Modelo | Sin razonamiento | Con razonamiento | Multiplicador |
|---|---|---|---|
| DeepSeek-R1-Distill-Llama-70B | 0,050 Wh | 7,63 Wh | x154 |
| Phi-4-reasoning-plus | 0,018 Wh | 9,46 Wh | x514 |
Son mediciones reales, no estimaciones. Y confirman que el razonamiento no es un coste marginal — es un cambio de escala.
Las estimaciones calibradas para los modelos comerciales cerrados muestran el mismo patrón:
| Modelo | Sin razonamiento | Con razonamiento |
|---|---|---|
| GPT-5 | 0,4-1,0 Wh | 8-45 Wh |
| GPT-5.4 | 0,5-1,2 Wh | 4-18 Wh |
| Claude Sonnet 4.6 | 0,25-0,6 Wh | 1,5-8 Wh |
| Claude Opus 4.6 | 0,6-1,5 Wh | 5-20 Wh |
| Gemini 2.5 Pro | 0,25-0,6 Wh | 2-12 Wh |
| Gemini 2.5 Flash | 0,12-0,25 Wh | 0,6-2,5 Wh |
| DeepSeek-V3.2 | 0,08-0,18 Wh | 1,5-8 Wh |
Gemini 2.5 Flash-Lite es la excepción notable: incluso con thinking activo, se mantiene en 0,2-0,8 Wh — demostrando que el razonamiento eficiente es posible.
El razonamiento no es gratis. Es un multiplicador de coste que va de x10 a x500 según el modelo. Cada vez que activas “thinking” estás eligiendo — consciente o inconscientemente — consumir un orden de magnitud más de energía.
Si el razonamiento puntual ya es caro, los agentes de código llevan ese coste al extremo: aplican razonamiento de forma iterativa, en bucles que pueden durar decenas de minutos, leyendo ficheros, ejecutando comandos, verificando resultados y volviendo a empezar.
Simon P. Couch midió en enero de 2026 el consumo real de Claude Code en sesiones de programación:
Los demás agentes operan en rangos similares:
Morph publicó en abril de 2026 un análisis revelador: el 70% de los tokens consumidos por agentes de código son desperdicio:
Un fix de un solo carácter consumió más de 21.000 tokens de entrada. Claude Code usa x4,2 más tokens que Aider para tareas idénticas (479.000 vs ~105.000).
Los sistemas de Deep Research representan el extremo del razonamiento: una sola pregunta dispara decenas de búsquedas web, lectura de páginas, ejecución de código y síntesis iterativa. El resultado es un informe de investigación — y el coste energético lo refleja.
| Sistema | Energía por informe | Multiplicador |
|---|---|---|
| OpenAI DR (o3) | 35-120 Wh | x117-x400 |
| Gemini Deep Research | 20-80 Wh | x67-x267 |
| Claude Research | 20-70 Wh | x67-x233 |
| Perplexity Deep Research | 15-60 Wh | x50-x200 |
| OpenAI DR (o4-mini) | 8-25 Wh | x27-x83 |
| Grok DeepSearch | 8-30 Wh | x27-x100 |
Simon Willison documentó una sesión de Deep Research con o4-mini: 60.506 tokens de entrada, 22.883 de salida (el 89% eran tokens de razonamiento interno), 77 llamadas a herramientas (45 búsquedas + 24 visitas a páginas + 12 ejecuciones de código). Coste: ~$1,10.
Un ejemplo de Perplexity: 7 tokens de entrada del usuario, 3.847 de salida, pero 308.156 tokens de razonamiento invisible. El razonamiento representó entre el 54% y el 78% del coste total.
Aquí está el verdadero riesgo: varios modelos activan el razonamiento por defecto, incluso para preguntas que no lo necesitan.
Es como si un coche tuviera el turbo activado permanentemente, incluso para ir a comprar el pan.
El modo de razonamiento debería ser opt-in, no opt-out. Activarlo por defecto para todas las consultas es un desperdicio energético sistemático a escala de cientos de millones de usuarios.
Para poner todo en perspectiva, esta es la escala completa desde la consulta más ligera hasta la más pesada:
| Acción | Energía | Multiplicador |
|---|---|---|
| Gemini 2.5 Flash-Lite (consulta rápida) | 0,05 Wh | x0,17 |
| Consulta simple de texto (referencia) | 0,3 Wh | x1 |
| Claude Sonnet 4.6 (adaptive/high) | 1,5-8 Wh | x5-x27 |
| Gemini 2.5 Pro (thinking) | 2-12 Wh | x7-x40 |
| GPT-5 (media, estimación URI) | 18,9 Wh | x63 |
| DeepSeek-R1 (larga, medida directa) | 33,6 Wh | x112 |
| o3 (larga, medida directa) | 39,2 Wh | x131 |
| Claude Code (sesión mediana, medida) | 41 Wh | x137 |
| Deep Research o3 (informe completo) | 35-120 Wh | x117-x400 |
| Sora 2 (clip 10s, antes del cierre) | 90-936 Wh | x300-x3.120 |
De la consulta más ligera a la más pesada hay un factor de x18.000. No son variaciones — son mundos diferentes de consumo disfrazados bajo el mismo interfaz de chat.
Si eres usuario: Desactiva el modo de razonamiento cuando no lo necesites. La mayoría de las consultas cotidianas — redacción, búsquedas, resúmenes, traducciones — se resuelven mejor y más rápido sin thinking. Reserva el razonamiento para problemas que realmente lo requieren: análisis complejos, código difícil, investigación profunda.
Si diriges un equipo técnico: Establece una política de cascada de modelos: Flash-Lite/mini para tareas rutinarias, modelo estándar para tareas generales, razonamiento solo cuando hay un ROI claro. Puede reducir el consumo de tu equipo en un 80-90% sin afectar la calidad del resultado.
Si eres desarrollador: Desactiva el thinking por defecto en tus integraciones. Usa thinking: "off" o equivalente como default y actívalo solo cuando la tarea lo justifique. Implementa presupuestos de tokens de razonamiento. Y considera agentes más ligeros como Aider (x4 menos tokens que Claude Code para tareas equivalentes).
Si trabajas en regulación: El razonamiento activado por defecto es un caso claro de consumo energético innecesario a escala masiva. Una normativa que exigiera a los proveedores ofrecer el modo eficiente como opción por defecto — como el modo ECO de los electrodomésticos — tendría un impacto medible en el consumo global de IA.
Relacionados
Por qué generar imágenes con IA cuesta entre 3 y 33 veces más energía que una consulta de texto — y qué puedes hacer al respecto
Inventario forense de todo lo que sabemos — y lo que no — sobre la energía que consume la inteligencia artificial
La guía definitiva del consumo energético por modelo y modalidad en 2026
Nuestra calculadora te ayuda a poner en contexto consultas, imágenes, razonamiento y agentes.
Abrir calculadora