Inferencia LLM a 3.000 tokens/s: por qué la velocidad de la IA ya es un problema de negocio

Hay noticias técnicas que parecen sólo para ingenieros, pero que en realidad cambian las reglas para cualquier dueño de negocio que esté usando — o pensando usar — IA. La última viene de Kog, una startup francesa que acaba de demostrar algo que hasta hace nada se consideraba imposible: generar 3.000 tokens por segundo por petición sobre un modelo de 2B en un nodo estándar de 8 GPUs, sin cuantización ni decodificación especulativa.

Para que te hagas una idea: ChatGPT genera unos 100 tokens por segundo. Kog va 30 veces más rápido sobre hardware que muchas empresas ya tienen en sus centros de datos.

Si tu primera reacción es "vale, ¿y a mí qué?", quédate. Esto te afecta más de lo que parece.

Lo que realmente significa "tokens por segundo"

Un token es la unidad mínima con la que trabaja un modelo de lenguaje — más o menos, tres cuartos de una palabra. Tokens por segundo (t/s o tok/s) es la medida estándar de cuántos tokens puede generar un modelo cada segundo, y es el referente para comparar la velocidad de inferencia de modelos de IA en distintas configuraciones de hardware.

Dicho de otra forma: es lo que decide si tu bot de voz suena natural o si tu cliente cuelga antes de que termine la frase.

Y aquí está el detalle que mucha gente pasa por alto: hay tres métricas distintas que se confunden constantemente.

Métrica	Qué mide	A quién le importa
Throughput agregado	Tokens totales generados por segundo entre todos los usuarios	Al proveedor de infraestructura
Time to first token	Cuánto tarda en empezar a responder	Al usuario que espera
Decode speed por petición	Velocidad de generación una vez ha empezado	A tu agente de IA y a tu cliente

El throughput agregado mide la utilización del servidor y premia los lotes grandes. El time to first token mide la latencia de prefill. La decode speed por petición define cuánto espera un usuario antes de recibir la respuesta completa — y es donde se atascan los agentes de IA.

La mayoría de proveedores te venden el primer número porque es el más fácil de inflar. Pero el que importa para tu negocio es el tercero.

Por qué la velocidad importa (más de lo que crees)

Aquí es donde se pone interesante. Un agente de IA opera en un bucle secuencial: inspeccionar, planificar, editar, probar, revisar. Cada paso depende del anterior. A veces el tiempo de herramientas domina, pero los pasos de generación intensiva (planificación, escritura, análisis, depuración) marcan el ritmo del bucle.

Traduce esto a tu negocio:

Bot de voz que atiende llamadas. Si tarda 4 segundos en empezar a hablar, el cliente cuelga. Si responde con la fluidez de un humano, agendas la cita.
Agente que cualifica leads. Tiene que leer el formulario, consultar el CRM, comprobar disponibilidad, generar una respuesta. Si cada paso tarda 3 segundos, son 12 segundos antes de la primera palabra. Si tarda 300ms cada uno, es instantáneo.
Asistente que resuelve dudas frecuentes. A 100 t/s, el cliente ve la respuesta gotear. A 1.000 t/s, aparece entera de golpe — y la conversación fluye.

A 4.000 tokens por segundo, cada ciclo de iteración baja de 5 minutos a 6 segundos. El agente redacta, revisa, prueba y refina. Tú piensas. El ciclo corre 40 veces en el tiempo que un stack estándar completa uno.

No es solo "más rápido". Es otra categoría de producto.

El cuello de botella no es lo que parece

Mucha gente asume que la IA va lenta porque "hace muchos cálculos". Falso. El problema real es la memoria, no la potencia de cálculo.

El cuello de botella no es la computación — es el ancho de banda de memoria. La generación autoregresiva estándar procesa un token a la vez, requiriendo un forward pass completo por cada nuevo token. Cuando ejecutas un LLM, los pesos del modelo (miles de millones de parámetros) están en la VRAM de la GPU. Por cada token que el modelo genera, esos pesos hay que leerlos desde la VRAM hacia los núcleos de cómputo.

Es como tener un coche Fórmula 1 pero con una manguera de jardín como toma de gasolina. La GPU puede calcular rapidísimo — el problema es alimentarla con datos.

Por eso lo que ha hecho Kog es relevante: han demostrado que el techo de velocidad de decodificación de las GPUs de datacenter estándar es mucho más alto de lo que los stacks de inferencia actuales exponen, debido a cuellos de botella de software. El hardware ya estaba ahí. Solo había que usarlo bien.

¿Esto cambia algo para una pyme?

Sí. Y aquí es donde quiero ser muy claro contigo, porque hay mucho ruido alrededor de este tipo de noticias.

Lo que NO cambia mañana:

Tu factura de OpenAI o Anthropic. Estos avances tardan meses (o años) en llegar a APIs comerciales.
La necesidad de diseñar bien tus automatizaciones. Un bot rápido pero mal pensado sigue siendo un bot mal pensado.
El criterio humano. La velocidad no sustituye al diseño.

Lo que SÍ cambia a medio plazo:

El coste por interacción va a bajar. Cuando la inferencia es 10x más rápida sobre el mismo hardware, el coste por petición cae proporcionalmente. Esto es lo que permite que automatizaciones que hoy son caras sean viables el año que viene.
Los agentes de voz se vuelven indistinguibles de humanos. Hoy, un bot que responde en 2 segundos suena "a bot". Con esta velocidad, responde en menos de 300ms — el umbral psicológico donde el cerebro humano deja de notar la diferencia.
Los flujos agénticos complejos se vuelven prácticos. Hoy, encadenar 10 pasos de razonamiento es prohibitivamente lento. Mañana, será trivial. Esto abre la puerta a automatizaciones que hoy ni nos planteamos.
Modelos pequeños y especializados ganan. Kog destaca particularmente en modelos pequeños (1B-7B parámetros) que pueden especializarse y afinarse para igualar la precisión de modelos mucho mayores en tareas específicas, a una fracción del coste y diez veces más rápido. Para una pyme, esto es oro: no necesitas GPT-5 para responder al teléfono de tu clínica. Necesitas un modelo pequeño, rápido y bien entrenado con TU información.

Lo que esto significa para tus decisiones de hoy

Si estás pensando implementar IA en tu negocio, hay un par de cosas que merecen que las tengas en la cabeza:

No te cases con la infraestructura. Lo que hoy es "lo mejor" en velocidad y coste, dentro de 6 meses estará obsoleto. Diseña tus automatizaciones para que puedan cambiar de proveedor sin tener que reconstruirlo todo.

No optimices prematuramente. Si tu bot atiende 10 llamadas al día, te da igual que vaya a 100 t/s o a 3.000. La velocidad es un problema cuando tienes volumen. Empieza por que funcione, luego optimiza.

Sí presta atención a la latencia en interacciones humanas. En cualquier flujo donde un cliente espera una respuesta — voz, chat en vivo, formularios — la velocidad de respuesta es UX. Y la UX es conversión.

Modelos pequeños y especializados > modelos gigantes genéricos. Para la mayoría de casos de uso en pymes (atender llamadas, cualificar leads, responder FAQs), un modelo de 7B bien afinado vence a GPT-5 en velocidad, coste y a menudo en precisión sobre el dominio concreto.

Cómo lo vemos en Studio SmartWork

Nosotros llevamos diseñando agentes de voz y automatizaciones desde antes de que esto fuera una conversación pública. Y lo que vemos día a día es que la velocidad ya no es un "detalle técnico": es la diferencia entre un bot que tu cliente tolera y uno que tu cliente prefiere a hablar con un humano.

Nuestro agente de voz para una clínica estética en Málaga llama al lead de Meta Ads en menos de 60 segundos desde que envía el formulario. Eso ya cambia la métrica de conversión. Pero la conversación en sí también tiene que fluir — y eso depende de la latencia de inferencia, del diseño del prompt y de la arquitectura del flujo.

Noticias como la de Kog son una buena señal: el suelo se está moviendo en la dirección correcta. Lo que hoy cuesta construir bien, mañana será más barato, más rápido y más accesible. Y los negocios que ya tengan sus procesos automatizados estarán en posición de aprovecharlo desde el día uno.

Los que sigan esperando "a que la IA madure" seguirán esperando dentro de dos años — porque la IA nunca para de madurar. La pregunta no es si esperar. Es por dónde empezar.

Resumen ejecutivo

Kog ha demostrado 3.000 tokens/s por petición en un nodo estándar de 8 GPUs sin cuantización ni decodificación especulativa, frente a los ~100 t/s de ChatGPT.
El cuello de botella de la IA no es el cálculo, es el ancho de banda de memoria. El hardware actual da para mucho más de lo que los stacks de software exponen.
Para tu negocio, esto significa: agentes de voz indistinguibles de humanos, flujos agénticos complejos viables, y coste por interacción bajando.
No cambia tus decisiones de hoy, pero sí confirma que la dirección es la correcta: modelos pequeños, especializados, rápidos y bien integrados ganan a soluciones genéricas y lentas.
La velocidad de inferencia ya no es un problema de ingeniería. Es una palanca de negocio.