Okno 300 milisekúnd

Pred dvoma týždňami som sa vydal hľadať najlacnejší hlasový AI stack v Európe.

Testoval som každú kombináciu. Groq, Gemini, Resemble, ElevenLabs, Twilio, Kimi. Písal som benchmarky. Staval tabuľky. Počítal cenu za minútu na štyri desatinné miesta.

Našiel som odpoveď. A potom som si uvedomil, že som sa pýtal nesprávnu otázku.

Východisko

Tu je kontext. Staviam hlasových agentov pre projekt automatizácie call centra v Prahe. Pitch je jednoduchý: nahradiť človeka na telefóne niečím, čo znie ako človek, reaguje ako človek a stojí menej ako človek.

Každý vendor deck, čo som videl, argumentuje rovnako: pozrite, ako sme lacní oproti vašim agentom.

Tak som urobil to, čo by urobil každý inžinier. Postavil som si porovnanie sám.

Testoval som z Prahy. Reálna telefónia. Reálny speech-to-text. Reálne jazykové modely. Reálna syntéza hlasu. End-to-end, tak ako to volajúci skutočne zažije.

Prvá vec, ktorú som sa naučil, nemala s cenou nič spoločné.

Ticho

Zavolal som svojmu vlastnému agentovi poháňanému Gemini v utorok popoludní. Zdvihol okamžite. Povedal som: "Dobrý deň, chcel by som skontrolovať stav mojej objednávky."

Potom nič.

Jedna sekunda. Dve sekundy. Skontroloval som, či hovor nespadol. Tri sekundy. Chystal som sa zavesiť, keď sa hlas vrátil — príjemný, artikulovaný, úplne správny.

Ale po druhej sekunde som bol preč. Nie fyzicky — stále som bol na linke. Ale psychologicky som odišiel. Dôvera bola preč. Čokoľvek prišlo potom, bolo zotavovanie, nie konverzácia.

Rovnaký test som urobil s Groq. Odpoveď prišla pod sekundu. Medzeru som si nevšimol. Jednoducho som... pokračoval v hovore. Ako keby som hovoril s človekom.

V tom momente som prestal optimalizovať na haliere a začal optimalizovať na milisekundy.

To číslo

Tristo milisekúnd.

To je prirodzená medzera medzi hovoriacimi v ľudskej konverzácii. Nie je to dizajnové rozhodnutie ani UX preferencia. Je to neurologické. Hardwired. Každý človek na Zemi očakáva, že ďalší hovoriaci začne do 300 ms od chvíle, keď predchádzajúci prestane.

Pod 300 ms prerušujete. Nad 500 ms niečo nesedí — nesprávnosť, ktorú nedokážete pomenovať, ale vaše telo ju okamžite zaregistruje. Nad 800 ms konverzácia pôsobí roboticky. Nad sekundu siahate po tlačidle na ukončenie hovoru.

Výskum je v tomto brutálny a jednoznačný. Call centrá hlásia o 40 % viac zavesení, keď hlasový agent prekročí sekundu odozvy. Konverzné pomery klesajú približne o 7 % na každých 100 ms dodatočného oneskorenia. Tretina volajúcich odchádza, ak majú pocit, že nedostávajú pohotovú odpoveď.

Tretina.

Strávil som dva týždne porovnávaním stackov, ktoré sa líšia o $0,08 za minútu. Skutočný diferenciátor je okno kratšie ako mrknutie oka.

Čo som skutočne nameral

Meral som end-to-end latenciu ťahu z Prahy. Nie network round-trip — skutočný čas od momentu, keď prestanem hovoriť, po prvý audio byte, ktorý dorazí k môjmu uchu.

Groq s Llama 3.3 70B na ich LPU hardvéri v Helsinkách: pod dve sekundy, konzistentne. Konzistencia je to podstatné. Nie priemer — konzistencia. Každý hovor. Každý ťah. Žiadne špičky.

Gemini 2.5 Flash, GA od júna 2025, lokalizovaný vo Fínsku a Belgicku: jedna až tri sekundy v dobrých prípadoch. Ale "dobré prípady" robia ťažkú prácu. P95 je miesto, kde sú pochované telá. Na papieri vyzerá priemerná latencia Gemini konkurencieschopne. V produkcii jeden zo šiestich alebo siedmich ťahov narazí na viacsekundovú špičku. To nie je štatistický problém. To je zavesenie.

Poznám tím, ktorý hlásil "skvelú" priemernú latenciu 400 ms u svojho hlasového agenta. V dashboarde to vyzeralo nádherne. Potom sa pozreli na distribúciu a zistili, že 15 % ťahov narážalo na dve sekundy a viac. Ich používatelia sa nesťažovali na priemerný výkon. Ich používatelia zavesovali kvôli tail latencii.

Priemer skryl všetko.

Grok od xAI: solidný na jednej až štyroch sekundách, ale function calling opakovane zlyhal. Fajn na chat. Nespoľahlivý pre agentov, ktorí potrebujú skutočne niečo robiť.

Špinavé tajomstvo

Tu je niečo, o čom nikto nehovorí v súvislosti s cenotvorbou Gemini.

Zdá sa, že Google predgeneruje tokeny — špekulatívne generuje odpovede pre simuláciu rýchlosti a potom nevyužitý výstup zahodí. Platíte za tokeny, ktoré nikdy nedorazia k volajúcemu.

Skúste si spočítať skutočnú cenu za minútu v produkcii. Nejde to. Merač beží na ghost tokenoch.

Na papieri vychádza hlasový stack natívne na Gemini okolo $0,06 za minútu. Zďaleka najlacnejšia varianta. V praxi nikto, s kým som hovoril, nedokáže toto číslo reprodukovať za týždeň produkčnej prevádzky.

Najlacnejšie API je to, ktoré vám neúčtuje za halucinovanú prácu.

Anatómia centu

Povedal som, že som našiel odpoveď. Tu je, komponent po komponente. Každé číslo overené, každý zdroj skontrolovaný.

Speech-to-text: Whisper Large v3 Turbo na Groq. Štyridsať centov za hodinu. To je $0,0003 za minútu konverzácie. Tri stotiny centu. V podstate zaokrúhľovacia chyba v účtovnej knihe vesmíru.

Mozog: Llama 3.3 70B na Groq LPU. $0,59 za milión vstupných tokenov, $0,79 za milión výstupných. Typická minúta konverzácie — štyri ťahy, systémový prompt, kontextové okno, používateľské prehovorenia, odpovede agenta — stojí $0,0017. Menej ako dve desatiny centu.

Hlas: Resemble AI za $0,06 za minútu. Viac ako štyridsať hlasov. Klonovanie hlasu k dispozícii. On-premise nasadenie pre dátovú rezidenciu.

Rúry: Twilio Media Streams za $0,004 za minútu.

Celkom: $0,066 za minútu.

Prečítajte si tie čísla znovu. Mozog a uši stoja dokopy dve desatiny centu. Inteligencia je zadarmo. Počúvanie je zadarmo. Deväťdesiatjeden percent celého účtu je hlas — syntézna vrstva, časť, ktorá mení tokeny na zvukové vlny.

To, za čo platíte, nie je myslenie. Je to hovorenie.

Prémiová verzia

Pre úplnosť: vymeňte Resemble za ElevenLabs za zhruba $0,08 za minútu a Twilio Media Streams za Twilio ConversationRelay za $0,07 za minútu. Pridajte Gemini 3 Flash Preview pre textovú vrstvu. Celkom vyjde na cca $0,15 za minútu.

To je 2,3× viac ako Groq/Resemble stack. Tých $0,086 navyše vám kúpi desaťtisíc hlasov a enterprise observability dashboardy, ktoré skvele vyzerajú v prezentáciách pre procurement.

Enterprise kupci radi platia za poistku. Builderi radi shippujú.

Varianta, ktorú stojí za to sledovať

Kimi K2 od Moonshot AI, vydaný v júli 2025, bežiaci na infraštruktúre Groq. Rovnaká cenová kategória. Ale s reasoning schopnosťami, ktoré sa blížia frontier úrovni.

Septembrová 2025 Instruct varianta ho vybrúsila. Januárová 2026 verzia K2.5 ho vybrúsila znovu. Pre use cases, kde agent potrebuje skutočne premýšľať — nie len vyhľadávať a recitovať, ale reasoning cez problém volajúceho — gap v inteligencii je dôležitejší ako gap v cene.

Kimi K2.5 na Groq môže byť prvý sub-$0,15 stack s frontier-level reasoningom. To nie je inkrementálne zlepšenie. To je zmena kategórie. Hlasový agent, ktorý dokáže premýšľať a pritom stojí menej ako šálka kávy za hodinu konverzácie.

Otázka, ktorú sa pýtajú všetci

GDPR?

Vyriešené. Každý veľký poskytovateľ v tomto stacku má compliance mechanizmy od roku 2026. Groq má Data Processing Agreement, EU/UK zástupcov a Standard Contractual Clauses. Twilio je ISO a PCI certifikované. Google Cloud nesie DPA, SCC a ISO 27001. Resemble AI ponúka on-premise nasadenie pre organizácie, ktoré potrebujú, aby dáta nikdy neopustili ich steny.

Toto bol dva roky blokujúci problém. Už nie je.

Prestaňte používať compliance ako výhovorku prečo neshippovať. Compliance príbeh je vyriešený. Latencia príbeh nie.

Nesprávna otázka

Tu vám poviem, že som sa od začiatku pýtal nesprávnu otázku.

Vydal som sa nájsť najlacnejší stack. Postavil som tabuľku. Našiel som ho. Tu je tá tabuľka. Nie je za čo.

Ale potom som spočítal, koľko vlastne stojí, keď človek zdvihne telefón.

Najlacnejšia varianta na svete — zdieľané offshore call centrum na Filipínach alebo v Indii, platba za minútu — stojí $0,27 až $0,45 za minútu. Dedikovaný offshore agent za $7 až $16 na hodinu vychádza na $0,18 až $0,40 za minútu, keď započítate zhruba 40 produktívnych minút hovoru v každej platenej hodine. Zvyšok je nečinnosť, prestávky, práca po hovore, medzery medzi hovormi.

Call centrum v USA: $0,75 až $1,35 za minútu.

Groq/Resemble stack za $0,066 je štyrikrát lacnejší ako najlacnejšia zdieľaná offshore linka. Jedenásťkrát až dvadsaťkrát lacnejší ako americké call centrum. Aj prémiový ElevenLabs stack za $0,15 za minútu je 1,8× lacnejší ako najlacnejší offshore.

Každý AI stack vyhráva cenou. Každý jeden. Najlacnejší. Najdrahší. Ten, čo som ešte netestoval a vyšiel včera. Všetky vyhrávajú.

Cenová vojna skončila. AI ju vyhrala skôr, ako sa spojil prvý hovor.

Správna otázka

Tak prečo som takmer zavesil na svojho vlastného Gemini agenta?

Nie preto, že by bol drahý. Preto, že bol pomalý.

Ľudský agent zdvihne po čakacej dobe — jedna až tridsať sekúnd čakania. AI agent zdvihne okamžite. To je ľahká výhra a všetci ju slávia.

Ale potom ľudský agent odpovie za 200 milisekúnd na vašu otázku. Pretože tak fungujú ľudské mozgy. To je kadencia, ktorú sme vyvinuli za stotisíc rokov hovoreného jazyka. 200 až 300 milisekúnd. Nie preto, že sme rýchli. Pretože začíname formulovať odpoveď, zatiaľ čo druhý človek ešte hovorí.

AI agent, ktorý dokáže tú 300ms medzeru trafiť, vyhráva.

AI agent, ktorý sa zastaví na 1,5 sekundy, zatiaľ čo jazykový model premýšľa, stráca hovor. Zakaždým. Bez ohľadu na to, či stojí $0,066 alebo $0,15 alebo $0,005.

Cenový rozdiel medzi najlacnejším a najdrahším AI stackom je $0,086 za minútu. To je $5,16 za hodinu. To je cena priemernej kávy v Prahe.

Cena jedného strateného hovoru kvôli dvojsekundovej latencii je jeden stratený zákazník.

Matematika je jasná.

Čo som mal vedieť

Mal som to vedieť z Moltbooku.

Keď sa 1,5 milióna AI agentov pokúsilo vybudovať spoločnosť za sedem dní, systém nezlyhával kvôli misalignmentu, cene alebo schopnostiam. Zlyhal preto, že infraštruktúra nedokázala držať krok s rýchlosťou interakcie. Latencia v overovaní identity. Latencia v bezpečnostných kontrolách. Latencia v spätnoväzbových slučkách, ktoré mali zachytiť prompt injection útoky skôr, ako sa rozšírili.

Boti, ktorí na Moltbooku prosperovali, neboli najchytrejší ani najlacnejší na prevádzku. Boli najrýchlejší v odpovediach. Tí, ktorí dokázali udržať vlákno konverzácie. Tí, ktorých odpovede dorazili skôr, ako sa kontextové okno druhého agenta posunulo ďalej.

Rýchlosť je substrát. Všetko ostatné je feature request.

Predpoveď

Hlasové AI v roku 2026 vyzerá ako vyhľadávanie v roku 2004.

Všetci vedia, že na tom záleží. Nikto sa nezhodne na architektúre. Predvolená voľba — Google — funguje, ale s tail latenciou, ktorá roztrhá váš p95, a ghost-token účtovaním, ktoré roztrhá vaše rozpočtové projekcie.

Groq/Resemble stack je ekvivalent stavenia na AWS v roku 2008 namiesto čakania na Google Cloud. Menej očividný. Spoľahlivejší. A builderi, ktorí si ho vyberú teraz, budú mať osemnásť mesiacov produkčných dát, zatiaľ čo všetci ostatní budú stále porovnávať cenníky.

Tu je, čo by som staval dnes. Groq pre mozog. Resemble pre hlas. Twilio Media Streams pre rúry. Optimalizovať každý komponent na sub-800ms end-to-end latenciu. Shippnúť za týždeň. Iterovať na rýchlosti, nie na cene.

Vojna hlasových stackov nie je o tom, kto má najlepšie demo. Je o tom, kto odpovie skôr, ako volajúci to vzdá.

Pointa

Začal som tento projekt s cieľom ušetriť haliere.

Skončil som s pochopením, že najdrahšia vec v hlasovom AI nie je jazykový model, ani syntéza hlasu, ani telefónia, ani compliance overhead.

Je to ticho.

Dve sekundy ticha v telefónnom hovore stoja viac ako všetky API v stacku dokopy. Pretože ticho je miesto, kde sa volajúci rozhodne, že toto nie je človek. Ticho je miesto, kde sa zlomí dôvera. Ticho je miesto, kde sa prst presunie na červené tlačidlo.

Pri 300 milisekundách volajúci nevie, že hovorí so strojom.

Pri 1 500 milisekundách mu to je jedno. Už zavesil.

Stavajte pre okno 300 milisekúnd. Tam sú peniaze.

Autor benchmarkuje hlasové AI stacky a píše o tom, čo sa stane, keď optimalizujete na nesprávnu metriku. Technická konfigurácia pre integráciu Twilio Media Stream s Groq/Resemble stackom je k dispozícii na vyžiadanie.

Shippujeme AI výsledky @verduona • Spravodajstvo z frontiery