Hace dos semanas me propuse encontrar el stack de voz AI mas barato de Europa.
Probe cada combinacion. Groq, Gemini, Resemble, ElevenLabs, Twilio, Kimi. Escribi benchmarks. Construi hojas de calculo. Calcule el coste por minuto hasta el cuarto decimal.
Encontre la respuesta. Y entonces me di cuenta de que estaba haciendo la pregunta equivocada.
El contexto
Esto es lo que me llevo aqui. Estoy construyendo agentes de voz para un proyecto de automatizacion de call center en Praga. El pitch es simple: reemplazar al humano en el telefono con algo que suene humano, responda como humano y cueste menos que un humano.
Cada vendor deck que he visto hace el mismo argumento: mira lo baratos que somos comparados con tus agentes.
Asi que hice lo que haria cualquier ingeniero. Construi la comparacion yo mismo.
Probe desde Praga. Telefonia real. Speech-to-text real. Modelos de lenguaje reales. Sintesis de voz real. End-to-end, tal como un llamador lo experimentaria realmente.
Lo primero que aprendi no tenia nada que ver con el coste.
El silencio
Llame a mi propio agente potenciado por Gemini un martes por la tarde. Contesto al instante. Dije: "Hola, me gustaria comprobar el estado de mi pedido."
Luego nada.
Un segundo. Dos segundos. Comprobe si la llamada se habia cortado. Tres segundos. Estaba a punto de colgar cuando la voz volvio — agradable, articulada, completamente correcta.
Pero para el segundo dos, yo ya me habia ido. No fisicamente — seguia en la linea. Pero psicologicamente, me habia marchado. La confianza estaba rota. Lo que vino despues fue recuperacion, no conversacion.
Hice la misma prueba con Groq. La respuesta llego en menos de un segundo. No note la pausa. Simplemente... segui hablando. Como lo haria con una persona.
Fue entonces cuando deje de optimizar por centimos y empece a optimizar por milisegundos.
El numero
Trescientos milisegundos.
Esa es la pausa natural entre hablantes en la conversacion humana. No es una decision de diseno ni una preferencia de UX. Es neurologico. Hardwired. Cada ser humano en la tierra espera que el siguiente hablante comience dentro de 300ms de cuando el anterior se detiene.
Por debajo de 300ms estas interrumpiendo. Por encima de 500ms algo se siente mal — una incorreccion que no puedes articular pero tu cuerpo registra inmediatamente. Pasados 800ms, la conversacion se siente robotica. Pasado un segundo, estas buscando el boton de colgar.
La investigacion sobre esto es brutal e inequivoca. Los call centers reportan un 40% mas de colgadas cuando los agentes de voz superan un segundo de latencia de respuesta. Las tasas de conversion caen aproximadamente un 7% por cada 100ms de retraso adicional. Un tercio de los llamadores abandona si sienten que no obtienen una respuesta rapida.
Un tercio.
Pase dos semanas comparando stacks que difieren en $0,08 por minuto. El verdadero diferenciador es una ventana de tiempo mas corta que un parpadeo.
Lo que realmente medi
Medi la latencia end-to-end por turno desde Praga. No el network round-trip — el tiempo real desde el momento en que dejo de hablar hasta el primer byte de audio que llega a mi oido.
Groq ejecutando Llama 3.3 70B en su hardware LPU en Helsinki: menos de dos segundos, consistentemente. La consistencia es lo importante. No el promedio — la consistencia. Cada llamada. Cada turno. Sin picos.
Gemini 2.5 Flash, GA desde junio 2025, localizado en Finlandia y Belgica: uno a tres segundos en buenos casos. Pero "buenos casos" esta haciendo trabajo pesado. El p95 es donde estan enterrados los cuerpos. En papel, la latencia promedio de Gemini parece competitiva. En produccion, uno de cada seis o siete turnos golpea un pico de varios segundos. Eso no es un problema estadistico. Es una colgada.
Conozco un equipo que reporto una "excelente" latencia promedio de 400ms en su agente de voz. En el dashboard se veia maravilloso. Luego profundizaron en la distribucion y descubrieron que el 15% de los turnos estaban alcanzando dos segundos o mas. Sus usuarios no se quejaban del rendimiento promedio. Sus usuarios estaban colgando por la tail latency.
El promedio oculto todo.
Grok de xAI: solido en uno a cuatro segundos, pero el function calling se rompia repetidamente. Bien para chat. Poco fiable para agentes que necesitan realmente hacer cosas.
El secreto sucio
Aqui hay algo de lo que nadie habla sobre los precios de Gemini.
Parece que Google precarga tokens — generando respuestas especulativamente para simular velocidad, y luego descartando la salida no utilizada. Pagas por tokens que nunca llegan al llamador.
Intenta calcular tu coste real por minuto en produccion. No puedes. El contador corre sobre ghost tokens.
En papel, un stack de voz nativo de Gemini sale a unos $0,06 por minuto. Con diferencia la opcion mas barata. En la practica, nadie con quien he hablado puede reproducir esa cifra a lo largo de una semana de trafico de produccion.
La API mas barata es la que no te cobra por trabajo alucinado.
La anatomia de un centavo
Dije que encontre la respuesta. Aqui esta, componente por componente. Cada numero verificado, cada fuente comprobada.
Speech-to-text: Whisper Large v3 Turbo en Groq. Cuarenta centavos por hora. Eso es $0,0003 por minuto de conversacion. Tres centesimas de centavo. Esencialmente un error de redondeo en el libro contable del universo.
El cerebro: Llama 3.3 70B en Groq LPU. $0,59 por millon de tokens de entrada, $0,79 por millon de salida. Un minuto tipico de conversacion — cuatro turnos, system prompt, ventana de contexto, intervenciones del usuario, respuestas del agente — cuesta $0,0017. Menos de dos decimas de centavo.
La voz: Resemble AI a $0,06 por minuto. Mas de cuarenta voces. Clonacion de voz disponible. Despliegue on-premise para residencia de datos.
Las tuberias: Twilio Media Streams a $0,004 por minuto.
Total: $0,066 por minuto.
Lee esos numeros otra vez. El cerebro y los oidos cuestan dos decimas de centavo juntos. La inteligencia es gratis. La escucha es gratis. El noventa y uno por ciento de toda la factura es la voz — la capa de sintesis, la parte que convierte tokens en ondas sonoras.
Por lo que pagas no es por pensar. Es por hablar.
La version premium
Para completar: cambia Resemble por ElevenLabs a aproximadamente $0,08 por minuto y Twilio Media Streams por Twilio ConversationRelay a $0,07 por minuto. Anade Gemini 3 Flash Preview para la capa de texto. El total sale a unos $0,15 por minuto.
Eso es 2,3 veces el stack Groq/Resemble. Los $0,086 extra te compran diez mil voces y dashboards de observabilidad enterprise que quedan genial en presentaciones de procurement.
Los compradores enterprise aman pagar por el seguro. Los builders aman shippear.
La variante que merece la pena observar
Kimi K2 de Moonshot AI, lanzado en julio 2025, ejecutandose en infraestructura Groq. Mismo rango de precios. Pero con capacidades de reasoning que se acercan al nivel frontier.
La variante Instruct de septiembre 2025 lo afino. El lanzamiento K2.5 de enero 2026 lo afino de nuevo. Para use cases donde el agente necesita realmente pensar — no solo recuperar y recitar, sino razonar a traves del problema del llamador — la brecha en inteligencia importa mas que la brecha en coste.
Kimi K2.5 en Groq podria ser el primer stack sub-$0,15 con reasoning genuino de nivel frontier. Eso no es una mejora incremental. Es un cambio de categoria. El agente de voz que puede pensar costando menos que una taza de cafe por hora de conversacion.
La pregunta que todos hacen
GDPR?
Resuelto. Cada proveedor importante en este stack tiene mecanismos de compliance desde 2026. Groq tiene Data Processing Agreement, representantes UE/UK y Standard Contractual Clauses. Twilio tiene certificacion ISO y PCI. Google Cloud lleva DPA, SCC e ISO 27001. Resemble AI ofrece despliegue on-premise para organizaciones que necesitan que los datos nunca abandonen sus muros.
Esto fue el bloqueador durante dos anos. Ya no lo es.
Deja de usar compliance como excusa para no shippear. La historia del compliance esta cerrada. La historia de la latencia no.
La pregunta equivocada
Aqui es donde te digo que estaba haciendo la pregunta equivocada desde el principio.
Me propuse encontrar el stack mas barato. Construi la hoja de calculo. Lo encontre. Aqui esta la hoja de calculo. De nada.
Pero luego hice las cuentas de lo que realmente cuesta que un humano conteste el telefono.
La opcion mas barata del mundo — un call center offshore compartido en Filipinas o India, facturacion por minuto — cuesta $0,27 a $0,45 por minuto. Un agente offshore dedicado a $7 a $16 por hora sale a $0,18 a $0,40 por minuto cuando cuentas los aproximadamente 40 minutos productivos de conversacion en cada hora pagada. El resto es tiempo muerto, descansos, trabajo post-llamada, huecos entre llamadas.
Un centro en EE.UU.: $0,75 a $1,35 por minuto.
El stack Groq/Resemble a $0,066 es cuatro veces mas barato que la linea offshore compartida mas barata. Once a veinte veces mas barato que un call center estadounidense. Incluso el stack premium ElevenLabs a $0,15 por minuto es 1,8 veces mas barato que el offshore mas economico.
Cada stack de AI gana en coste. Cada uno. El mas barato. El mas caro. El que aun no he probado y salio ayer. Todos ganan.
La guerra de costes ha terminado. La AI la gano antes de que se conectara la primera llamada.
La pregunta correcta
Entonces por que casi colgue a mi propio agente Gemini?
No porque fuera caro. Porque era lento.
Un agente humano contesta despues del tiempo de espera — de uno a treinta segundos esperando. Un agente AI contesta al instante. Esa es la victoria facil, y todos la celebran.
Pero luego el agente humano tarda 200 milisegundos en responder a tu pregunta. Porque asi funcionan los cerebros humanos. Esa es la cadencia que evolucionamos durante cien mil anos de lenguaje hablado. 200 a 300 milisegundos. No porque seamos rapidos. Porque empezamos a formular nuestra respuesta mientras la otra persona aun esta hablando.
Un agente AI que puede igualar esa pausa de 300 milisegundos gana.
Un agente AI que se pausa 1,5 segundos mientras el modelo de lenguaje piensa pierde la llamada. Cada vez. Independientemente de si cuesta $0,066 o $0,15 o $0,005.
La diferencia de coste entre el stack AI mas barato y el mas caro es $0,086 por minuto. Eso es $5,16 por hora. Es el precio de un cafe mediocre en Praga.
El coste de una llamada perdida por un pico de latencia de dos segundos es un cliente perdido.
Las cuentas no tienen comparacion.
Lo que deberia haber sabido
Deberia haberlo sabido por Moltbook.
Cuando 1,5 millones de agentes AI intentaron construir una sociedad en siete dias, el sistema no colapso por misalignment, coste o capacidad. Colapso porque la infraestructura no podia seguir el ritmo de la velocidad de interaccion. Latencia en la verificacion de identidad. Latencia en los controles de seguridad. Latencia en los bucles de retroalimentacion que deberian haber detectado los ataques de prompt injection antes de que se propagaran.
Los bots que prosperaron en Moltbook no eran los mas inteligentes ni los mas baratos de operar. Eran los mas rapidos en responder. Los que podian mantener un hilo de conversacion. Aquellos cuyas respuestas llegaban antes de que la ventana de contexto del otro agente avanzara.
La velocidad es el sustrato. Todo lo demas es un feature request.
La prediccion
La voz AI en 2026 se parece al buscador en 2004.
Todos saben que importa. Nadie se pone de acuerdo en la arquitectura. La opcion por defecto — Google — funciona, pero con tail latency que destrozara tu p95 y facturacion de ghost-token que destrozara tus proyecciones presupuestarias.
El stack Groq/Resemble es el equivalente a construir sobre AWS en 2008 en vez de esperar a Google Cloud. Menos obvio. Mas fiable. Y los builders que lo elijan ahora tendran dieciocho meses de datos de produccion mientras todos los demas siguen comparando paginas de precios.
Esto es lo que construiria hoy. Groq para el cerebro. Resemble para la voz. Twilio Media Streams para las tuberias. Optimizar cada componente para latencia end-to-end sub-800ms. Shippear en una semana. Iterar sobre velocidad, no sobre coste.
La guerra de stacks de voz no va de quien tiene la mejor demo. Va de quien responde antes de que el llamador se rinda.
El remate
Empece este proyecto intentando ahorrar centimos.
Lo termine entendiendo que lo mas caro en voz AI no es el modelo de lenguaje, ni la sintesis de voz, ni la telefonia, ni el overhead de compliance.
Es el silencio.
Dos segundos de silencio en una llamada telefonica cuestan mas que todas las APIs del stack juntas. Porque el silencio es donde el llamador decide que esto no es una persona. El silencio es donde se rompe la confianza. El silencio es donde el dedo se mueve al boton rojo.
A 300 milisegundos, el llamador no sabe que esta hablando con una maquina.
A 1.500 milisegundos, no le importa. Ya ha colgado.
Construye para la ventana de 300 milisegundos. Ahi esta el dinero.