La economía de los *tokens* y el coste real de la inteligencia artificial

Por Andrea Daniele Signorelli / Sinistra in Rete

En los últimos meses, muchas empresas que habían firmado contratos con OpenAI o Anthropic se han llevado una sorpresa desagradable. El pasado mes de abril, por ejemplo, la empresa de transporte compartido Uber descubrió que ya había agotado todo su presupuesto anual destinado a la inteligencia artificial.

Una situación similar se vivió en el gigante minorista Walmart, que impuso apresuradamente límites al uso de grandes modelos de lenguaje por parte de sus empleados. Mientras tanto, se ha informado que una empresa no identificada gastó 500 millones de dólares en un solo mes debido al uso desenfrenado de Claude por parte de su plantilla; incluso un gigante como Meta ha impuesto restricciones al uso de sistemas de IA generativa, al igual que Amazon, AT&T, Brex y numerosas empresas más. ¿Qué sucedió? ¿Acaso no estábamos en la era del *tokenmaxxing* —esa carrera por ver qué empresa lograba utilizar más la inteligencia artificial—? Para entender por qué la situación cambió tan rápidamente, basta con observar la primera mitad de 2026, cuando tanto OpenAI como Anthropic modificaron las condiciones de sus contratos corporativos. Pasaron de una tarifa plana —incluso para sus sistemas más avanzados y especializados— a un modelo basado en el uso. Los costes se dispararon inesperadamente en función del volumen de *tokens* procesados por herramientas como ChatGPT Codex, Claude Cowork y otras.

Así, prácticamente de la noche a la mañana, los *tokens* —un concepto que hasta hace poco solo conocían los expertos del sector— se han convertido en uno de los temas más debatidos entre directivos de todo el mundo. Hagamos una pausa: ¿qué son exactamente los *tokens*?

¿Qué son los *tokens*, los componentes básicos de los grandes modelos de lenguaje?

En pocas palabras, los *tokens* son las unidades fundamentales de texto que los modelos de lenguaje procesan al leer, interpretar o generar información. En la mayoría de los casos, un *token* no equivale a una palabra completa, sino a una parte de ella (con una media de cuatro caracteres en inglés). No obstante, también puede tratarse de un signo de puntuación, un espacio o un carácter especial. Cuando un modelo debe procesar la frase «Is the kitten sleeping on the sofa?» (¿Está el gatito durmiendo en el sofá?), la descompone en *tokens* aproximadamente así: «Is / the / kitt / en / sleep / ing / on / the / sofa / ?».

Siempre que un modelo de lenguaje procesa texto —independientemente de su objetivo o tarea específica—, en realidad está procesando una secuencia de *tokens*: los convierte en representaciones numéricas, los compara con el contexto que ya ha recibido y calcula qué *token* tiene más probabilidades de aparecer a continuación. Así es como responde a una pregunta, resume un documento, escribe código o traduce una oración: no «comprendiendo» las palabras, sino prediciendo la secuencia de *tokens* más coherente con la instrucción (*prompt*) recibida. Este mecanismo se conoce como «predicción del siguiente *token*».

Al igual que el consumo de electricidad se calcula en kilovatios-hora o el tráfico de internet en gigabytes, el trabajo realizado por la IA generativa se mide en *tokens*. Sin embargo, existe una diferencia clave: el consumo real puede aumentar muy rápidamente, ya que depende no solo de la extensión de la solicitud o de la respuesta final, sino también de la cantidad de información que el modelo debe leer antes de generarla. En consecuencia, una pregunta formulada al inicio de un chat con Claude consumirá menos *tokens* que la misma pregunta planteada durante una conversación extensa, dado que el «contexto» que el modelo de lenguaje debe analizar es mucho menor en el primer caso.

Un último punto importante es que, si bien en los modelos de lenguaje de gran tamaño (LLM) los *tokens* representan elementos lingüísticos, en los modelos de generación de imágenes pueden corresponder a fragmentos de una imagen; en los modelos de audio, a fragmentos de sonido; y en los modelos de video, a secuencias de información que combinan imágenes, movimiento y duración. No obstante, el principio sigue siendo el mismo: independientemente del contenido generado —texto, voz, música, imágenes o video—, el modelo no lo procesa como un bloque único, sino que lo descompone en unidades más pequeñas, las convierte en números y opera sobre ellos.

Otro aspecto significativo es que, gracias a la creciente eficiencia de los modelos, el coste de los *tokens* se ha desplomado a lo largo de los años. Mientras que en 2023 el precio de un LLM como GPT-4 era de 30 dólares por millón de *tokens* para la entrada (el texto que introducimos) y de 60 dólares para la salida (lo que genera la IA), hoy en día GPT-5.5 cuesta 5 y 30 dólares, respectivamente. Según algunas estimaciones, los precios medios por *token* han llegado a reducirse hasta 600 veces entre 2020 y 2026.

La paradójica economía de los *tokens*

Sin embargo, si el precio de los *tokens* se ha desplomado —y cabe argumentar que ha caído considerablemente incluso para las empresas que desarrollan modelos de lenguaje de gran tamaño (LLM), a pesar de la falta de datos transparentes al respecto—, ¿cómo es posible que la transición a un modelo de pago por uso haya provocado que los costes se dispararan? La situación llegó a tal extremo que el presupuesto anual completo de Uber se agotó en apenas unos meses, y Meta se vio obligada a limitar el uso de la inteligencia artificial en el entorno laboral.

Existen dos razones para ello. Por un lado, los modelos avanzados basados en el razonamiento —que descomponen una solicitud en múltiples pasos— consumen muchos más *tokens* que sus homólogos tradicionales (y a menudo generan respuestas más extensas). Por otro, la proliferación de modelos de lenguaje y su uso, a menudo intensivo (e indiscriminado), han provocado un aumento masivo en el volumen de *tokens* que requieren procesamiento. En consecuencia, hoy en día un solo empleado que utiliza un modelo de vanguardia puede consumir una cantidad de *tokens* muy superior a la de hace apenas dos años.

La combinación de estos dos factores explica por qué Google —tal como señaló su director ejecutivo, Sundar Pichai— vio cómo el volumen de *tokens* procesados por minuto pasaba de 10.000 a 16.000 millones en un solo trimestre. Por su parte, OpenAI informó que su plataforma de API (la infraestructura que permite a empresas y desarrolladores conectar su *software* con los modelos de OpenAI) pasó de procesar 6.000 millones a más de 15.000 millones de *tokens* por minuto entre el otoño de 2025 y la primavera de 2026, tras haber experimentado un crecimiento de veinte veces su volumen inicial en los dos años anteriores.

Este aumento repentino en el consumo de *tokens* estuvo oculto durante mucho tiempo gracias a las tarifas planas, pero se hizo evidente con el cambio a la facturación basada en el uso: «La inteligencia artificial es actualmente la partida de gastos que más rápido crece en los presupuestos corporativos», señalaba un informe de Deloitte de principios de este año. «Algunas empresas han informado que la IA ya representa hasta la mitad de su gasto en TI. Aunque el precio unitario de los *tokens* está bajando, el gasto corporativo total en sistemas de IA —y la escala de su uso— está aumentando. Es probable que el número de usuarios, la complejidad de los modelos y la intensidad de la carga de trabajo impulsen un mayor consumo de *tokens* y, en consecuencia, un incremento de los costes».

Es probable que el cambio a la facturación basada en el uso sea el principal factor detrás del fuerte aumento de los ingresos de Anthropic, que pasaron de 4800 millones de dólares en el primer trimestre de 2026 a una cifra proyectada de 10 900 millones para el segundo trimestre. Sin embargo, será interesante ver qué sucede en el trimestre siguiente, una vez que los directivos de las empresas hayan asimilado plenamente la escalada de costes que supone el uso de Claude Code, Cowork y otros sistemas avanzados de Anthropic: «Los costes de computación se han convertido ahora en una prioridad para los directores financieros y los consejos de administración», explicó al *Financial Times* Costi Perricos, responsable de IA en Deloitte. «[OpenAI y Anthropic] enseñaron a los usuarios y a las empresas que la IA era barata o incluso gratuita, pero la realidad es muy distinta».

Carter Busse, ejecutivo de la empresa de software Workato, también comentó al *Financial Times* cómo el uso de la IA entre sus empleados se disparó en cuanto empezaron a utilizar agentes de IA. La desagradable sorpresa llegó con la primera factura de Anthropic basada en el consumo: «Nuestros costes se multiplicaron por siete de repente y pensé: «Mierda, hemos creado un monstruo»», explicó Busse, quien ahora insta a los empleados a utilizar modelos más económicos y a hacerlo de manera más responsable. Aún más preocupantes para los gigantes de la IA son las declaraciones de Jeetu Patel, presidente de Cisco: «El coste de los *tokens* es muy superior al valor real que generan a gran escala».

El estancamiento de OpenAI y Anthropic

Justo cuando las empresas empiezan a mostrar reticencia ante las facturas y a cuestionar si el beneficio justifica el coste, OpenAI y Anthropic se enfrentan a lo que el propio Sam Altman ha calificado como «un problema enorme». ¿Y cómo se está resolviendo este problema? Según los informes, de la única manera posible actualmente: reduciendo los precios para evitar la pérdida de clientes; un movimiento que, al parecer, OpenAI se prepara para realizar con el fin de adelantarse a una medida similar por parte de Anthropic.

Como resumió Ed Zitron en su blog: «Han pasado menos de tres meses desde que las empresas empezaron a pagar el coste real de los servicios basados en LLM, y ya están tan claramente indignadas que tanto Anthropic como OpenAI planean recortar los precios de unos servicios que ya generan pérdidas, lo que probablemente provocará un desplome de los ingresos mientras los costes generales aumentan».

El riesgo radica en que estos dos gigantes de la IA generativa se enfrentan a un dilema clásico: si no bajan los precios, las empresas podrían reducir el uso de modelos de lenguaje (y, como hemos visto, muchas ya lo han hecho). Si los bajan, reducen los ingresos de unas compañías que ya operan con pérdidas de decenas de miles de millones de dólares al año.

Esto genera un segundo punto muerto: si las empresas reducen el uso de la IA generativa, ¿qué utilidad tendrán los 190 gigavatios de capacidad eléctrica para centros de datos que se tienen previstos —parte de una carrera mundial que, según estimaciones de McKinsey, podría requerir inversiones de hasta 7 billones de dólares para 2030—? Y si OpenAI y Anthropic se ven obligadas a bajar los precios para retener a clientes corporativos, ¿cómo cumplirán los contratos por valor de cientos de miles de millones de dólares firmados con Microsoft, Amazon, Google, CoreWeave y otros proveedores de potencia de cálculo?

¿Cuánto pagarías por usar ChatGPT?

Llegados a este punto, cabe preguntarse qué sucedería si los usuarios habituales de ChatGPT y Claude se vieran obligados a pagar una tarifa basada en el uso en lugar de las actuales tarifas planas; estas últimas, para los usuarios intensivos, cubren apenas una fracción de los costes reales.

De hecho, algo similar ya está ocurriendo. A partir de junio de 2026, los usuarios de GitHub Copilot —el asistente de programación con IA vinculado a la plataforma de intercambio de proyectos de software propiedad de Microsoft— pasaron de una suscripción mensual fija a un sistema de facturación ligado al consumo de *tokens*. Un usuario informó que sus costes podrían aumentar de 29 a hasta 750 dólares mensuales, mientras que otro señaló que su factura podría dispararse hasta los 3.000 dólares.

Cabe destacar que parte de la responsabilidad recae en el llamado *vibe-coding* (programación basada en la intuición o el «ambiente»), un método en el que todos los pasos técnicos se dejan en manos de la IA, lo que aumenta drásticamente el consumo de *tokens*. Sin embargo, es difícil culpar a los usuarios que practican el *vibe-coding* por su uso indiscriminado de Copilot, dado que la propia Microsoft fomentó esta práctica para luego penalizarla con facturas desorbitadas.

¿Qué pasaría si OpenAI y Anthropic —una vez concluida la carrera por captar usuarios a cualquier precio— decidieran cobrar por los *tokens* en función del uso real? Es un escenario que bien podría materializarse en un futuro no muy lejano, dada la probabilidad de que ambas empresas salgan a bolsa y la consiguiente necesidad de frenar sus pérdidas astronómicas (que requirieron algunas de las mayores rondas de financiación de la historia para cubrirse) y de demostrar una mejora en sus resultados financieros.

Esto plantea una pregunta evidente: ¿cuánto tendríamos que pagar por las herramientas de IA si no tuviéramos acceso a tarifas planas artificialmente bajas? Una simulación realizada por la firma de análisis SemiAnalysis ofrece una posible respuesta. Según estas estimaciones, el «precio real» (definido como el coste que asumiríamos bajo un modelo de precios basado en el uso, similar a las tarifas de API) de una suscripción a ChatGPT de 20 dólares al mes podría llegar a los 700 dólares, mientras que una suscripción «Pro» de 200 dólares podría ascender a 14.000 dólares (una situación similar se aplica a Anthropic).

La ventaja de China

En última instancia, el problema persiste: la inteligencia artificial generativa es demasiado costosa y aún no se vislumbra un modelo de negocio sostenible. Sin embargo, esta situación afecta principalmente a los «modelos de frontera» más avanzados desarrollados en Estados Unidos, y podría, de hecho, beneficiar al ecosistema de IA de China.

El indicio más claro proviene del consumo de *tokens*. Según datos de OpenRouter, los tres modelos más utilizados en junio —clasificados por el volumen de *tokens* procesados— fueron todos chinos: MiMo (de Xiaomi), MiniMax y DeepSeek. Esto indica que una proporción creciente del uso de modelos de lenguaje de gran tamaño (LLM) —que abarca aplicaciones, herramientas de trabajo, agentes y servicios empresariales— se está desplazando hacia modelos más económicos fabricados en China.

China se beneficia de una combinación de factores, entre ellos menores costos energéticos, centros de datos más baratos, infraestructura respaldada por el Estado y una competencia interna agresiva. Además, estos modelos suelen diseñarse para consumir menos recursos, en parte debido a decisiones arquitectónicas y en parte porque las restricciones impiden a China acceder a los chips más avanzados. La ventaja de China se hace aún más evidente al analizar los precios: los modelos chinos más populares cuestan apenas una fracción de lo que cuestan los modelos insignia de OpenAI y Anthropic.

No obstante, el precio por millón de *tokens* representa solo una parte del costo real. Tal como explicó a CNA el investigador independiente Wong Qi Han, si un modelo comete errores con frecuencia (lo que exige múltiples intentos), tiene un bajo rendimiento en un idioma extranjero, presenta una latencia elevada o plantea problemas de seguridad y cumplimiento normativo, el ahorro inicial puede resultar ilusorio. En teoría, la métrica decisiva no debería ser el costo por millón de *tokens*, sino la cantidad invertida para obtener un resultado satisfactorio (para los usuarios promedio) o el retorno de la inversión (para las empresas). El desafío radica en que ambas métricas son extremadamente difíciles de medir.

Es posible que los modelos estadounidenses, más costosos, sigan utilizándose para tareas complejas, mientras que los modelos chinos podrían captar el segmento de mercado más amplio: aplicaciones cotidianas que sirven de apoyo profesional o asistentes personales.

¿Es aplicable aquí el dicho «bien está lo que bien acaba»? No necesariamente. Para China, el riesgo principal es una competencia de precios feroz y la reducción de los márgenes, factores que podrían poner en peligro la rentabilidad de empresas como DeepSeek. Para Estados Unidos, el riesgo radica en que quedar fuera del mercado masivo —destinado a casos de uso cotidiano y de gran volumen— no solo supondría menores ingresos potenciales, sino que, lo que es más crítico, conllevaría una reducción de la capacidad de cómputo necesaria.

Dadas las enormes sumas que se están invirtiendo en GPU, servicios en la nube y centros de datos, una demanda de capacidad de cómputo inferior a la prevista podría convertir la actual carrera de infraestructuras en una apuesta financiera de alto riesgo. Llegado ese punto, la temida burbuja de la IA podría estallar definitivamente.

_____

Andrea Daniele Signorelli: Periodista nacido en 1982, centrado en la intersección entre nuevas tecnologías, política y sociedad. Escribe para *Italian Tech*, *Wired*, *Domani*, *Il Tascabile*, entre otros medios. Es autor de *Technosapiens: come l’essere umano si trasforma in macchina* (D Editore, 2021).

La economía de los tokens y el coste real de la inteligencia artificial

Be the first to comment

Leave a Reply Cancelar la respuesta

«¡NO se meta!»

#Opinión / Gente honrada y decente en inseguridad