Razonamiento vs. respuesta rápida: la consulta que consume x130 más

El razonamiento de IA — la capacidad de 'pensar antes de responder' — multiplica el consumo energético entre x 10 y x 500 según el modelo y la tarea. Los modelos de razonamiento consumen de media x 30 más que los modelos estándar. Los agentes de código alcanzan 41 Wh por sesión mediana (x 137). Y los sistemas de Deep Research superan los 100 Wh por informe. El problema: muchos modelos activan el razonamiento por defecto, incluso cuando no hace falta.

39,2 Wh. Eso es lo que consume una consulta larga con razonamiento al modelo o3 de OpenAI — medición directa, confianza alta. Es x131 más que una consulta simple de texto (0,3 Wh). La misma energía que cargar tu smartphone casi tres veces.

Y o3 no es el caso extremo. El AI Energy Score v2 de Hugging Face encontró que los modelos de razonamiento consumen de media x30 más que los estándar. Algunos llegan a x700.

La diferencia entre preguntarle algo a una IA y pedirle que piense no es incremental. Es de órdenes de magnitud.

Qué es el razonamiento y por qué cuesta tanto

Desde 2024, los principales modelos de IA incorporan un modo de “razonamiento” o “thinking”: en vez de responder inmediatamente, el modelo genera una cadena interna de pensamiento — a veces miles de tokens invisibles — antes de producir la respuesta final.

Este proceso es computacionalmente muy caro porque:

Genera tokens ocultos: El modelo puede producir 10-100 veces más tokens internos de los que muestra al usuario. Cada token consume energía aunque nunca lo veas.
Activa capas adicionales: Los modelos de razonamiento suelen activar más parámetros, más capas de atención y más ciclos de verificación interna.
Escala con la complejidad: A diferencia de una respuesta rápida (coste relativamente fijo), el razonamiento escala con la dificultad del problema. Una pregunta compleja puede generar 10 minutos de “pensamiento” interno.

Dauner y Socher documentaron que los modelos de razonamiento emiten hasta x50 más CO₂ que los modelos concisos, con un caso de 37.575 tokens para una sola respuesta.

Los datos: modelo por modelo

El AI Energy Score v2 de Hugging Face (diciembre 2025), basado en mediciones directas en hardware H100, proporciona los datos más sólidos:

Modelo	Sin razonamiento	Con razonamiento	Multiplicador
DeepSeek-R1-Distill-Llama-70B	0,050 Wh	7,63 Wh	x154
Phi-4-reasoning-plus	0,018 Wh	9,46 Wh	x514

Son mediciones reales, no estimaciones. Y confirman que el razonamiento no es un coste marginal — es un cambio de escala.

Las estimaciones calibradas para los modelos comerciales cerrados muestran el mismo patrón:

Modelo	Sin razonamiento	Con razonamiento
GPT-5	0,4-1,0 Wh	8-45 Wh
GPT-5.4	0,5-1,2 Wh	4-18 Wh
Claude Sonnet 4.6	0,25-0,6 Wh	1,5-8 Wh
Claude Opus 4.6	0,6-1,5 Wh	5-20 Wh
Gemini 2.5 Pro	0,25-0,6 Wh	2-12 Wh
Gemini 2.5 Flash	0,12-0,25 Wh	0,6-2,5 Wh
DeepSeek-V3.2	0,08-0,18 Wh	1,5-8 Wh

Gemini 2.5 Flash-Lite es la excepción notable: incluso con thinking activo, se mantiene en 0,2-0,8 Wh — demostrando que el razonamiento eficiente es posible.

El razonamiento no es gratis. Es un multiplicador de coste que va de x10 a x500 según el modelo. Cada vez que activas “thinking” estás eligiendo — consciente o inconscientemente — consumir un orden de magnitud más de energía.

Agentes de código: el razonamiento en bucle

Si el razonamiento puntual ya es caro, los agentes de código llevan ese coste al extremo: aplican razonamiento de forma iterativa, en bucles que pueden durar decenas de minutos, leyendo ficheros, ejecutando comandos, verificando resultados y volviendo a empezar.

Simon P. Couch midió en enero de 2026 el consumo real de Claude Code en sesiones de programación:

Sesión mediana: 592.439 tokens en 24 intercambios interactivos
Consumo por sesión: 41 Wh — x137 la referencia base
Uso intensivo diario (2-3 instancias simultáneas): ~1.300 Wh — el equivalente a un ciclo de lavavajillas

Los demás agentes operan en rangos similares:

Claude Code + Opus 4.6: 45-70 Wh por sesión (x150-x233)
GPT-5.3-Codex: 12-40 Wh por tarea (x40-x133)
Devin 2.0: 10-60 Wh por tarea autónoma (x33-x200)
Cursor AI: 5-25 Wh por sesión fuerte (x17-x83)
GitHub Copilot Agent: 3-15 Wh por flujo PR (x10-x50)
Aider: 2-9 Wh por tarea (x7-x30)

El problema de los tokens desperdiciados

Morph publicó en abril de 2026 un análisis revelador: el 70% de los tokens consumidos por agentes de código son desperdicio:

35-45% en lectura de ficheros
15-25% en salida de herramientas
15-20% en reenvío de contexto
10-15% en razonamiento interno
Solo el 5-15% genera código real

Un fix de un solo carácter consumió más de 21.000 tokens de entrada. Claude Code usa x4,2 más tokens que Aider para tareas idénticas (479.000 vs ~105.000).

Deep Research: la consulta que sustituye a un analista

Los sistemas de Deep Research representan el extremo del razonamiento: una sola pregunta dispara decenas de búsquedas web, lectura de páginas, ejecución de código y síntesis iterativa. El resultado es un informe de investigación — y el coste energético lo refleja.

Sistema	Energía por informe	Multiplicador
OpenAI DR (o3)	35-120 Wh	x117-x400
Gemini Deep Research	20-80 Wh	x67-x267
Claude Research	20-70 Wh	x67-x233
Perplexity Deep Research	15-60 Wh	x50-x200
OpenAI DR (o4-mini)	8-25 Wh	x27-x83
Grok DeepSearch	8-30 Wh	x27-x100

Simon Willison documentó una sesión de Deep Research con o4-mini: 60.506 tokens de entrada, 22.883 de salida (el 89% eran tokens de razonamiento interno), 77 llamadas a herramientas (45 búsquedas + 24 visitas a páginas + 12 ejecuciones de código). Coste: ~$1,10.

Un ejemplo de Perplexity: 7 tokens de entrada del usuario, 3.847 de salida, pero 308.156 tokens de razonamiento invisible. El razonamiento representó entre el 54% y el 78% del coste total.

El problema del “thinking por defecto”

Aquí está el verdadero riesgo: varios modelos activan el razonamiento por defecto, incluso para preguntas que no lo necesitan.

Claude Sonnet 4.6 tiene el modo “adaptive thinking” activado por defecto. Una consulta simple que podría resolverse en 0,3 Wh se procesa con razonamiento innecesario, consumiendo 1,5-8 Wh.
GPT-5 usa un router que mezcla respuesta rápida y razonamiento según su criterio — no el del usuario.
Claude Opus 4.6 opera por defecto en modo thinking, aunque se le reduzca el precio: reducir precio no equivale a reducir consumo energético.

Es como si un coche tuviera el turbo activado permanentemente, incluso para ir a comprar el pan.

El modo de razonamiento debería ser opt-in, no opt-out. Activarlo por defecto para todas las consultas es un desperdicio energético sistemático a escala de cientos de millones de usuarios.

La tabla de multiplicadores definitiva

Para poner todo en perspectiva, esta es la escala completa desde la consulta más ligera hasta la más pesada:

Acción	Energía	Multiplicador
Gemini 2.5 Flash-Lite (consulta rápida)	0,05 Wh	x0,17
Consulta simple de texto (referencia)	0,3 Wh	x1
Claude Sonnet 4.6 (adaptive/high)	1,5-8 Wh	x5-x27
Gemini 2.5 Pro (thinking)	2-12 Wh	x7-x40
GPT-5 (media, estimación URI)	18,9 Wh	x63
DeepSeek-R1 (larga, medida directa)	33,6 Wh	x112
o3 (larga, medida directa)	39,2 Wh	x131
Claude Code (sesión mediana, medida)	41 Wh	x137
Deep Research o3 (informe completo)	35-120 Wh	x117-x400
Sora 2 (clip 10s, antes del cierre)	90-936 Wh	x300-x3.120

De la consulta más ligera a la más pesada hay un factor de x18.000. No son variaciones — son mundos diferentes de consumo disfrazados bajo el mismo interfaz de chat.

¿Qué puedo hacer yo?

Si eres usuario: Desactiva el modo de razonamiento cuando no lo necesites. La mayoría de las consultas cotidianas — redacción, búsquedas, resúmenes, traducciones — se resuelven mejor y más rápido sin thinking. Reserva el razonamiento para problemas que realmente lo requieren: análisis complejos, código difícil, investigación profunda.
Si diriges un equipo técnico: Establece una política de cascada de modelos: Flash-Lite/mini para tareas rutinarias, modelo estándar para tareas generales, razonamiento solo cuando hay un ROI claro. Puede reducir el consumo de tu equipo en un 80-90% sin afectar la calidad del resultado.
Si eres desarrollador: Desactiva el thinking por defecto en tus integraciones. Usa thinking: "off" o equivalente como default y actívalo solo cuando la tarea lo justifique. Implementa presupuestos de tokens de razonamiento. Y considera agentes más ligeros como Aider (x4 menos tokens que Claude Code para tareas equivalentes).
Si trabajas en regulación: El razonamiento activado por defecto es un caso claro de consumo energético innecesario a escala masiva. Una normativa que exigiera a los proveedores ofrecer el modo eficiente como opción por defecto — como el modo ECO de los electrodomésticos — tendría un impacto medible en el consumo global de IA.

Razonamiento vs. respuesta rápida: la consulta que consume x130 más

Multiplicador energético: razonamiento vs. respuesta rápida (base = 0,3 Wh)

Qué es el razonamiento y por qué cuesta tanto

Los datos: modelo por modelo

Agentes de código: el razonamiento en bucle

El problema de los tokens desperdiciados

Deep Research: la consulta que sustituye a un analista

El problema del “thinking por defecto”

La tabla de multiplicadores definitiva

¿Qué puedo hacer yo?

Fuentes

Seguir explorando AISHA

Una imagen de IA consume lo mismo que cargar tu móvil 4 veces

Solo existen 10 mediciones reales del consumo de IA en el mundo

¿Cuánta energía consume la IA que usas cada día?

Siguiente paso

Calcula el impacto aproximado del uso que haces de la IA.