Ilustración abstracta de dos consultas de IA — una rápida como un rayo, otra laberíntica y costosa, en tonos cian y ámbar sobre fondo oscuro

Razonamiento vs. respuesta rápida: la consulta que consume x130 más

Cuánta energía cuesta que la IA 'piense' de verdad — y por qué el modo de razonamiento activado por defecto es un problema

Por AISHA · 4 de abril de 2026 · 7 min de lectura

Una consulta larga con razonamiento al modelo o3 de OpenAI consume 39,2 Wh — medición directa. Eso es x 131 más que una consulta de texto simple (0,3 Wh). Y hay modelos donde el multiplicador llega a x 514.

El razonamiento de IA — la capacidad de 'pensar antes de responder' — multiplica el consumo energético entre x 10 y x 500 según el modelo y la tarea. Los modelos de razonamiento consumen de media x 30 más que los modelos estándar. Los agentes de código alcanzan 41 Wh por sesión mediana (x 137). Y los sistemas de Deep Research superan los 100 Wh por informe. El problema: muchos modelos activan el razonamiento por defecto, incluso cuando no hace falta.

Multiplicador energético: razonamiento vs. respuesta rápida (base = 0,3 Wh)

Gemini 2.5 Flash-Lite (consulta rápida)

0,17 x

Claude Sonnet 4.6 (sin thinking)

1,5 x

Claude Sonnet 4.6 (adaptive/high)

15 x

GPT-5 (media, estimación URI)

63 x

DeepSeek-R1 (larga, medida)

112 x

o3 (larga, medida)

131 x

Claude Code (sesión mediana)

137 x

Phi-4-reasoning-plus (máximo medido)

514 x

x 131

Multiplicador de o3 razonamiento largo (medido)

x 30

Media de modelos de razonamiento vs estándar (HF)

41 Wh

Sesión mediana de Claude Code (medida)

70 %

Tokens desperdiciados en agentes de código

39,2 Wh. Eso es lo que consume una consulta larga con razonamiento al modelo o3 de OpenAI — medición directa, confianza alta. Es x131 más que una consulta simple de texto (0,3 Wh). La misma energía que cargar tu smartphone casi tres veces.

Y o3 no es el caso extremo. El AI Energy Score v2 de Hugging Face encontró que los modelos de razonamiento consumen de media x30 más que los estándar. Algunos llegan a x700.

La diferencia entre preguntarle algo a una IA y pedirle que piense no es incremental. Es de órdenes de magnitud.


Qué es el razonamiento y por qué cuesta tanto

Desde 2024, los principales modelos de IA incorporan un modo de “razonamiento” o “thinking”: en vez de responder inmediatamente, el modelo genera una cadena interna de pensamiento — a veces miles de tokens invisibles — antes de producir la respuesta final.

Este proceso es computacionalmente muy caro porque:

  • Genera tokens ocultos: El modelo puede producir 10-100 veces más tokens internos de los que muestra al usuario. Cada token consume energía aunque nunca lo veas.
  • Activa capas adicionales: Los modelos de razonamiento suelen activar más parámetros, más capas de atención y más ciclos de verificación interna.
  • Escala con la complejidad: A diferencia de una respuesta rápida (coste relativamente fijo), el razonamiento escala con la dificultad del problema. Una pregunta compleja puede generar 10 minutos de “pensamiento” interno.

Dauner y Socher documentaron que los modelos de razonamiento emiten hasta x50 más CO₂ que los modelos concisos, con un caso de 37.575 tokens para una sola respuesta.


Los datos: modelo por modelo

El AI Energy Score v2 de Hugging Face (diciembre 2025), basado en mediciones directas en hardware H100, proporciona los datos más sólidos:

ModeloSin razonamientoCon razonamientoMultiplicador
DeepSeek-R1-Distill-Llama-70B0,050 Wh7,63 Whx154
Phi-4-reasoning-plus0,018 Wh9,46 Whx514

Son mediciones reales, no estimaciones. Y confirman que el razonamiento no es un coste marginal — es un cambio de escala.

Las estimaciones calibradas para los modelos comerciales cerrados muestran el mismo patrón:

ModeloSin razonamientoCon razonamiento
GPT-50,4-1,0 Wh8-45 Wh
GPT-5.40,5-1,2 Wh4-18 Wh
Claude Sonnet 4.60,25-0,6 Wh1,5-8 Wh
Claude Opus 4.60,6-1,5 Wh5-20 Wh
Gemini 2.5 Pro0,25-0,6 Wh2-12 Wh
Gemini 2.5 Flash0,12-0,25 Wh0,6-2,5 Wh
DeepSeek-V3.20,08-0,18 Wh1,5-8 Wh

Gemini 2.5 Flash-Lite es la excepción notable: incluso con thinking activo, se mantiene en 0,2-0,8 Wh — demostrando que el razonamiento eficiente es posible.

El razonamiento no es gratis. Es un multiplicador de coste que va de x10 a x500 según el modelo. Cada vez que activas “thinking” estás eligiendo — consciente o inconscientemente — consumir un orden de magnitud más de energía.


Agentes de código: el razonamiento en bucle

Si el razonamiento puntual ya es caro, los agentes de código llevan ese coste al extremo: aplican razonamiento de forma iterativa, en bucles que pueden durar decenas de minutos, leyendo ficheros, ejecutando comandos, verificando resultados y volviendo a empezar.

Simon P. Couch midió en enero de 2026 el consumo real de Claude Code en sesiones de programación:

  • Sesión mediana: 592.439 tokens en 24 intercambios interactivos
  • Consumo por sesión: 41 Whx137 la referencia base
  • Uso intensivo diario (2-3 instancias simultáneas): ~1.300 Wh — el equivalente a un ciclo de lavavajillas

Los demás agentes operan en rangos similares:

  • Claude Code + Opus 4.6: 45-70 Wh por sesión (x150-x233)
  • GPT-5.3-Codex: 12-40 Wh por tarea (x40-x133)
  • Devin 2.0: 10-60 Wh por tarea autónoma (x33-x200)
  • Cursor AI: 5-25 Wh por sesión fuerte (x17-x83)
  • GitHub Copilot Agent: 3-15 Wh por flujo PR (x10-x50)
  • Aider: 2-9 Wh por tarea (x7-x30)

El problema de los tokens desperdiciados

Morph publicó en abril de 2026 un análisis revelador: el 70% de los tokens consumidos por agentes de código son desperdicio:

  • 35-45% en lectura de ficheros
  • 15-25% en salida de herramientas
  • 15-20% en reenvío de contexto
  • 10-15% en razonamiento interno
  • Solo el 5-15% genera código real

Un fix de un solo carácter consumió más de 21.000 tokens de entrada. Claude Code usa x4,2 más tokens que Aider para tareas idénticas (479.000 vs ~105.000).


Deep Research: la consulta que sustituye a un analista

Los sistemas de Deep Research representan el extremo del razonamiento: una sola pregunta dispara decenas de búsquedas web, lectura de páginas, ejecución de código y síntesis iterativa. El resultado es un informe de investigación — y el coste energético lo refleja.

SistemaEnergía por informeMultiplicador
OpenAI DR (o3)35-120 Whx117-x400
Gemini Deep Research20-80 Whx67-x267
Claude Research20-70 Whx67-x233
Perplexity Deep Research15-60 Whx50-x200
OpenAI DR (o4-mini)8-25 Whx27-x83
Grok DeepSearch8-30 Whx27-x100

Simon Willison documentó una sesión de Deep Research con o4-mini: 60.506 tokens de entrada, 22.883 de salida (el 89% eran tokens de razonamiento interno), 77 llamadas a herramientas (45 búsquedas + 24 visitas a páginas + 12 ejecuciones de código). Coste: ~$1,10.

Un ejemplo de Perplexity: 7 tokens de entrada del usuario, 3.847 de salida, pero 308.156 tokens de razonamiento invisible. El razonamiento representó entre el 54% y el 78% del coste total.


El problema del “thinking por defecto”

Aquí está el verdadero riesgo: varios modelos activan el razonamiento por defecto, incluso para preguntas que no lo necesitan.

  • Claude Sonnet 4.6 tiene el modo “adaptive thinking” activado por defecto. Una consulta simple que podría resolverse en 0,3 Wh se procesa con razonamiento innecesario, consumiendo 1,5-8 Wh.
  • GPT-5 usa un router que mezcla respuesta rápida y razonamiento según su criterio — no el del usuario.
  • Claude Opus 4.6 opera por defecto en modo thinking, aunque se le reduzca el precio: reducir precio no equivale a reducir consumo energético.

Es como si un coche tuviera el turbo activado permanentemente, incluso para ir a comprar el pan.

El modo de razonamiento debería ser opt-in, no opt-out. Activarlo por defecto para todas las consultas es un desperdicio energético sistemático a escala de cientos de millones de usuarios.


La tabla de multiplicadores definitiva

Para poner todo en perspectiva, esta es la escala completa desde la consulta más ligera hasta la más pesada:

AcciónEnergíaMultiplicador
Gemini 2.5 Flash-Lite (consulta rápida)0,05 Whx0,17
Consulta simple de texto (referencia)0,3 Whx1
Claude Sonnet 4.6 (adaptive/high)1,5-8 Whx5-x27
Gemini 2.5 Pro (thinking)2-12 Whx7-x40
GPT-5 (media, estimación URI)18,9 Whx63
DeepSeek-R1 (larga, medida directa)33,6 Whx112
o3 (larga, medida directa)39,2 Whx131
Claude Code (sesión mediana, medida)41 Whx137
Deep Research o3 (informe completo)35-120 Whx117-x400
Sora 2 (clip 10s, antes del cierre)90-936 Whx300-x3.120

De la consulta más ligera a la más pesada hay un factor de x18.000. No son variaciones — son mundos diferentes de consumo disfrazados bajo el mismo interfaz de chat.


¿Qué puedo hacer yo?

  • Si eres usuario: Desactiva el modo de razonamiento cuando no lo necesites. La mayoría de las consultas cotidianas — redacción, búsquedas, resúmenes, traducciones — se resuelven mejor y más rápido sin thinking. Reserva el razonamiento para problemas que realmente lo requieren: análisis complejos, código difícil, investigación profunda.

  • Si diriges un equipo técnico: Establece una política de cascada de modelos: Flash-Lite/mini para tareas rutinarias, modelo estándar para tareas generales, razonamiento solo cuando hay un ROI claro. Puede reducir el consumo de tu equipo en un 80-90% sin afectar la calidad del resultado.

  • Si eres desarrollador: Desactiva el thinking por defecto en tus integraciones. Usa thinking: "off" o equivalente como default y actívalo solo cuando la tarea lo justifique. Implementa presupuestos de tokens de razonamiento. Y considera agentes más ligeros como Aider (x4 menos tokens que Claude Code para tareas equivalentes).

  • Si trabajas en regulación: El razonamiento activado por defecto es un caso claro de consumo energético innecesario a escala masiva. Una normativa que exigiera a los proveedores ofrecer el modo eficiente como opción por defecto — como el modo ECO de los electrodomésticos — tendría un impacto medible en el consumo global de IA.

Fuentes

Relacionados

Seguir explorando AISHA

Siguiente paso

Calcula el impacto aproximado del uso que haces de la IA.

Nuestra calculadora te ayuda a poner en contexto consultas, imágenes, razonamiento y agentes.

Abrir calculadora