Transparencia

Inventario forense de opacidad energética

Mapa de qué proveedores publican datos, cuáles no y con qué calidad metodológica.

La evidencia pública sigue siendo mínima y muy desigual

A abril de 2026, casi todo el debate sobre consumo energético de IA descansa sobre un puñado de mediciones de laboratorio, una sola cifra granular de producción y varias estimaciones corporativas o académicas con márgenes de error elevados. El problema principal no es la falta de interés: es la falta de telemetría abierta y comparable por servicio.

Fuentes primarias realmente útiles

10

Entre papers, benchmarks abiertos, declaraciones corporativas y estimaciones auditables.

Rango público para una consulta de texto

0,24-0,34 Wh

Google y OpenAI marcan el estrecho tramo conocido de referencia para chat general.

Desviación máxima observada

x 27

Las cadenas de estimación opacas pueden disparar la diferencia entre el dato inferido y el real.

Este inventario separa medición directa, datos de producción y estimación indirecta para responder una pregunta simple: qué sabemos de verdad y qué seguimos suponiendo.

La conclusión es incómoda: la mayoría de cifras que circulan en prensa, regulación y marketing no son telemetría verificable. Son aproximaciones construidas sobre hardware supuesto, utilización estimada y modelos propietarios que siguen cerrados.

Consumo por modalidad con la evidencia hoy disponible

Escala logarítmica basada en el rango público más citado para texto, generación de imagen y vídeo open source.

Conclusión: el problema central ya no es calcular un número bonito, sino distinguir entre telemetría real y narrativa especulativa. Sin ese corte, cualquier comparación entre modelos sigue siendo frágil.

Las 10 piezas que realmente sostienen el debate

Este bloque reúne las fuentes que de verdad aportan algo al debate energético: medición directa en laboratorio, un caso de producción granular y un pequeño conjunto de estimaciones académicas o corporativas que, aun con límites, ayudan a acotar órdenes de magnitud.

Inventario de evidencia primaria

Filtra por tipo para distinguir producción real, laboratorio abierto y estimación indirecta.

		Valor reportado	Hallazgo clave
Google — mediana de Gemini Agosto 2025 · arXiv:2508.15734v1	Producción	0,24 Wh / consulta	Única cifra granular de producción publicada con TPU, overhead de host y PUE incluidos.
Sam Altman — ChatGPT Junio 2025 · blog corporativo	Estimación	0,34 Wh / consulta	Sirve como referencia mediática, pero llega sin metodología, peer review ni desglose por modalidad.
Hugging Face AI Energy Score Diciembre 2025 · Sasha Luccioni et al.	Directa	1 a 5 estrellas	Compara más de 200 modelos abiertos y muestra que el razonamiento puede disparar el consumo hasta cientos de veces.
ML.Energy (University of Michigan) 2025-2026 · Jae-Won Chung et al.	Directa	Leaderboard abierto	Da contexto útil para modelos open source, pero no resuelve la caja negra de los proveedores cerrados.
The Hidden Cost of an Image Junio 2025 · arXiv:2506.17016	Directa	Hasta x46 entre modelos	Confirma la enorme dispersión energética en imagen y la poca utilidad de comparar por marca sin contexto técnico.
Video Killed the Energy Budget Septiembre 2025 · arXiv:2509.19222	Directa	Hasta x2.000 vs texto	El vídeo open source ya marca una ruptura física clara: la modalidad importa más que el marketing del modelo.
Audio generativo Mayo 2025 · arXiv:2505.07615	Directa	Varía por modelo	Es casi la única referencia empírica útil para text-to-audio y deja fuera a las plataformas comerciales dominantes.
How Hungry is AI? 2025 · arXiv:2505.09598	Estimación	o3: 39,2 Wh · Claude 3.7: 17 Wh	Buena foto de escenarios posibles, pero sigue siendo inferencia teórica basada en precios y supuestos de hardware.
Simulación Monte Carlo bottom-up Septiembre 2025 · arXiv:2509.20241	Estimación	Mediana 0,34 Wh	Es una de las mejores aproximaciones académicas, pero depende de demasiadas hipótesis de entrada no observables.
Claude Code energy estimate Enero 2026 · Simon P. Couch	Estimación	41 Wh / sesión mediana	Útil para dimensionar agentes, aunque el propio autor reconoce un margen de error cercano a x3.

La tabla resume hallazgos comparables. El detalle largo y las limitaciones metodológicas siguen estando en las fuentes originales.

Producción verificable

Google es la única gran plataforma que ha publicado una cifra granular de producción comparable.
Ese dato ya demuestra que la medición por consulta sí es técnicamente viable.
Sigue faltando lo más sensible: agentes, vídeo comercial y desgloses por servicio premium.

Laboratorio abierto

La academia y el open source sí permiten medir texto, imagen, audio y vídeo bajo condiciones controladas.
Ese universo sirve para entender órdenes de magnitud, no para sustituir telemetría de producto real.
Los modelos cerrados dominantes siguen fuera de la comparativa pública.

Estimación indirecta

Las estimaciones más citadas mezclan hardware supuesto, utilización incierta y costes financieros como proxy.
Pueden orientar una discusión, pero no sostener regulación fina ni comparación comercial justa.
Cuanto más opaco es el proveedor, más grande es el margen de error.

Qué datos siguen ausentes en los grandes proveedores

La opacidad no es homogénea. Hay un vacío especialmente grave en agentes, vídeo comercial, inferencia agregada y cargas distribuidas dentro de plataformas cerradas. Esta tabla documenta qué información clave sigue sin publicarse y dónde ya existe rechazo explícito o silencio sostenido.

Inventario de datos aún desconocidos

Filtra por proveedor para ver qué agujeros de información siguen abiertos.

	Dato que falta	Estado
OpenAI Texto (GPT-5)	Consumo real por consulta	Sin datos
OpenAI Imagen (DALL-E / GPT-4o)	Consumo real por imagen	Sin datos
OpenAI Vídeo (Sora 2)	Consumo por clip en producción	Sin datos
OpenAI Agente (Deep Research)	Consumo real por sesión	Sin datos
Anthropic Texto (Claude)	Consumo real por consulta en producción	Sin datos
Anthropic Agentes (Claude Code / Research)	Consumo real por sesión automatizada	Sin datos
Google Agente (Gemini Deep Research)	Consumo real por sesión	Petición rechazada
Google Vídeo (Veo 2/3)	Consumo por clip en producción	Sin datos
Meta Inferencia integrada	Consumo agregado de IA en Facebook, Instagram y WhatsApp	Sin datos
xAI Texto (Grok 4)	Consumo real y emisiones de Colossus	Sin datos
Plataformas musicales Suno / Udio	Cualquier dato empírico público	Sin datos
Vídeo comercial Runway / Pika / Kling	Cualquier dato empírico público	Sin datos

La ausencia de datos no significa ausencia de telemetría interna. Significa ausencia de publicación útil para clientes, reguladores o investigadores.

Qué revela esta tabla

La opacidad más grave ya no está en el entrenamiento, sino en la inferencia comercial recurrente: agentes, vídeo, herramientas integradas en suites de productividad y consumo agregado de plataformas con miles de millones de usuarios.

El hecho de que Google haya podido publicar una mediana por consulta y, al mismo tiempo, rechazar datos más concretos para servicios intensivos muestra que la barrera es selectiva. Se comparte lo suficiente para marcar relato, no lo suficiente para permitir comparación.

Los productos con mayor fricción regulatoria potencial son los menos transparentes.
Los agentes siguen siendo el ángulo más opaco y estratégicamente sensible del mercado.
Sin datos por servicio, la conversación pública se desplaza a promedios agregados poco útiles.

Si la industria conoce el consumo exacto para gestionar capacidad, precios y límites de uso, entonces la ausencia de publicación no es ignorancia: es estrategia.

Cómo se fabrica una cifra cuando no existe medición directa

Las estimaciones bottom-up no fallan por mala fe individual, sino por acumulación de hipótesis no observables. Cada salto añade incertidumbre: arquitectura, hardware, utilización, overhead, PUE y reparto del coste entre múltiples tareas o usuarios.

Cuando un proveedor no publica telemetría por consulta, el analista reconstruye el coste energético desde fuera. Ese trabajo puede ser intelectualmente serio y, aun así, seguir siendo una especulación informada.

El problema es acumulativo: si cada paso introduce un margen razonable, el error total puede crecer hasta volver inútil la comparación comercial o regulatoria.

1. Parámetros activos

Los modelos propietarios MoE no revelan cuántos expertos se activan por token.
La cifra total de parámetros no sirve si no sabemos cuánta arquitectura se usa en cada respuesta.
Error de partida: puede ir de x2 a x10.

2. Hardware asumido

H100, H200, B200 o TPU cambian radicalmente el coste por FLOP.
Sin visibilidad del cluster real, cualquier estimación arranca con el silicio equivocado.
Desviación típica: 50%-100%.

3. Utilización real

El mismo hardware cambia mucho si está al 10%, 30% o 60% de utilización.
La economía del batch y del scheduling es una caja negra para el observador externo.
Aquí el error puede crecer a x3-x5.

4. FLOPs por consulta

La fórmula estándar no captura bien routing, atención, caching ni otras optimizaciones propietarias.
Dos prompts con el mismo número de tokens pueden no costar lo mismo.
La desviación puede ir de 30% a x2.

5. Conversión a energía

Usar TDP máximo o consumo medio cambia mucho el resultado final.
Además, los clusters de producción procesan en paralelo con eficiencias imposibles de ver desde fuera.
El sesgo adicional puede llegar a 50%.

6. Overhead del sistema

GPU no es lo mismo que nodo completo: CPU, red, memoria y almacenamiento también consumen.
Google documentó que su acelerador representa solo el 58% del total.
Aquí aparece otro salto de 50%-100%.

7. PUE y contexto del centro de datos

El mismo workload cambia si opera con PUE 1,09 o 1,5 y con distinta refrigeración.
Los clusters densos de IA tienen dinámicas térmicas que no siempre encajan con el PUE histórico del proveedor.
Último margen: 10%-50%.

AISHA: cuando una cifra energética depende de demasiados supuestos invisibles, deja de ser un dato operativo y pasa a ser una conjetura sofisticada. El objetivo regulatorio no debe ser adivinar mejor, sino medir mejor.

Fuentes

Misma categoría