Okno 300 milisekund

Před dvěma týdny jsem se vydal hledat nejlevnější hlasový AI stack v Evropě.

Testoval jsem každou kombinaci. Groq, Gemini, Resemble, ElevenLabs, Twilio, Kimi. Psal jsem benchmarky. Stavěl tabulky. Počítal cenu za minutu na čtyři desetinná místa.

Našel jsem odpověď. A pak jsem si uvědomil, že jsem se ptal na špatnou otázku.

Východisko

Tady je kontext. Stavím hlasové agenty pro projekt automatizace call centra v Praze. Pitch je jednoduchý: nahradit člověka na telefonu něčím, co zní jako člověk, reaguje jako člověk a stojí méně než člověk.

Každý vendor deck, co jsem viděl, argumentuje stejně: podívejte, jak jsme levní oproti vašim agentům.

Tak jsem udělal to, co by udělal každý inženýr. Postavil jsem si srovnání sám.

Testoval jsem z Prahy. Reálná telefonie. Reálný speech-to-text. Reálné jazykové modely. Reálná syntéza hlasu. End-to-end, tak jak to volající skutečně zažije.

První věc, kterou jsem se naučil, neměla s cenou nic společného.

Ticho

Zavolal jsem svému vlastnímu agentovi poháněnému Gemini v úterý odpoledne. Zvedl okamžitě. Řekl jsem: "Dobrý den, chtěl bych zkontrolovat stav mé objednávky."

Pak nic.

Jedna sekunda. Dvě sekundy. Zkontroloval jsem, jestli hovor nespadl. Tři sekundy. Chystal jsem se zavěsit, když se hlas vrátil — příjemný, artikulovaný, naprosto správný.

Ale po druhé sekundě jsem byl pryč. Ne fyzicky — stále jsem byl na lince. Ale psychologicky jsem odešel. Důvěra byla pryč. Cokoli přišlo potom, bylo zotavování, ne konverzace.

Stejný test jsem provedl s Groq. Odpověď přišla pod sekundu. Mezeru jsem si nevšiml. Prostě jsem... pokračoval v hovoru. Jako bych mluvil s člověkem.

V tu chvíli jsem přestal optimalizovat na halíře a začal optimalizovat na milisekundy.

To číslo

Tři sta milisekund.

To je přirozená mezera mezi mluvčími v lidské konverzaci. Není to designové rozhodnutí ani UX preference. Je to neurologické. Hardwired. Každý člověk na Zemi očekává, že další mluvčí začne do 300 ms od chvíle, kdy předchozí přestane.

Pod 300 ms přerušujete. Nad 500 ms něco nesedí — nesprávnost, kterou nedokážete pojmenovat, ale vaše tělo ji okamžitě zaregistruje. Nad 800 ms konverzace působí roboticky. Nad sekundu saháte po tlačítku pro ukončení hovoru.

Výzkum je v tomto brutální a jednoznačný. Call centra hlásí o 40 % více zavěšení, když hlasový agent překročí sekundu odezvy. Konverzní poměry klesají přibližně o 7 % na každých 100 ms dodatečného zpoždění. Třetina volajících odchází, pokud mají pocit, že nedostávají pohotovou odpověď.

Třetina.

Strávil jsem dva týdny porovnáváním stacků, které se liší o $0,08 za minutu. Skutečný diferenciátor je okno kratší než mrknutí oka.

Co jsem skutečně naměřil

Měřil jsem end-to-end latenci tahu z Prahy. Ne network round-trip — skutečný čas od okamžiku, kdy přestanu mluvit, po první audio byte, který dorazí k mému uchu.

Groq s Llama 3.3 70B na jejich LPU hardwaru v Helsinkách: pod dvě sekundy, konzistentně. Konzistence je to podstatné. Ne průměr — konzistence. Každý hovor. Každý tah. Žádné špičky.

Gemini 2.5 Flash, GA od června 2025, lokalizovaný ve Finsku a Belgii: jedna až tři sekundy v dobrých případech. Ale "dobré případy" dělají těžkou práci. P95 je místo, kde jsou zakopána těla. Na papíře vypadá průměrná latence Gemini konkurenceschopně. V produkci jeden ze šesti nebo sedmi tahů narazí na vícevteřinovou špičku. To není statistický problém. To je zavěšení.

Znám tým, který hlásil "skvělou" průměrnou latenci 400 ms u svého hlasového agenta. V dashboardu to vypadalo nádherně. Pak se podívali na distribuci a zjistili, že 15 % tahů naráželo na dvě sekundy a více. Jejich uživatelé si nestěžovali na průměrný výkon. Jejich uživatelé zavěšovali kvůli tail latenci.

Průměr skryl všechno.

Grok od xAI: solidní na jedné až čtyřech sekundách, ale function calling opakovaně selhal. Fajn na chat. Nespolehlivý pro agenty, kteří potřebují skutečně něco dělat.

Špinavé tajemství

Tady je něco, o čem nikdo nemluví v souvislosti s cenotvorbou Gemini.

Zdá se, že Google předgeneruje tokeny — spekulativně generuje odpovědi pro simulaci rychlosti a pak nevyužitý výstup zahodí. Platíte za tokeny, které nikdy nedorazí k volajícímu.

Zkuste si spočítat skutečnou cenu za minutu v produkci. Nejde to. Měřič běží na ghost tokenech.

Na papíře vychází hlasový stack nativně na Gemini kolem $0,06 za minutu. Zdaleka nejlevnější varianta. V praxi nikdo, s kým jsem mluvil, nedokáže toto číslo reprodukovat za týden produkčního provozu.

Nejlevnější API je to, které vám neúčtuje za halucinovanou práci.

Anatomie centu

Řekl jsem, že jsem našel odpověď. Tady je, komponentu po komponentě. Každé číslo ověřené, každý zdroj zkontrolovaný.

Speech-to-text: Whisper Large v3 Turbo na Groq. Čtyřicet centů za hodinu. To je $0,0003 za minutu konverzace. Tři setiny centu. V podstatě zaokrouhlovací chyba v účetní knize vesmíru.

Mozek: Llama 3.3 70B na Groq LPU. $0,59 za milion vstupních tokenů, $0,79 za milion výstupních. Typická minuta konverzace — čtyři tahy, systémový prompt, kontextové okno, uživatelské promluvy, odpovědi agenta — stojí $0,0017. Méně než dvě desetiny centu.

Hlas: Resemble AI za $0,06 za minutu. Více než čtyřicet hlasů. Klonování hlasu k dispozici. On-premise nasazení pro datovou rezidenci.

Trubky: Twilio Media Streams za $0,004 za minutu.

Celkem: $0,066 za minutu.

Přečtěte si ta čísla znovu. Mozek a uši stojí dohromady dvě desetiny centu. Inteligence je zdarma. Naslouchání je zdarma. Jednadevadesát procent celého účtu je hlas — syntézní vrstva, část, která mění tokeny na zvukové vlny.

To, za co platíte, není myšlení. Je to mluvení.

Prémiová verze

Pro úplnost: vyměňte Resemble za ElevenLabs za zhruba $0,08 za minutu a Twilio Media Streams za Twilio ConversationRelay za $0,07 za minutu. Přidejte Gemini 3 Flash Preview pro textovou vrstvu. Celkem vyjde na cca $0,15 za minutu.

To je 2,3× víc než Groq/Resemble stack. Těch $0,086 navíc vám koupí deset tisíc hlasů a enterprise observability dashboardy, které skvěle vypadají v prezentacích pro procurement.

Enterprise kupci rádi platí za pojistku. Buildeři rádi shippují.

Varianta, kterou stojí za to sledovat

Kimi K2 od Moonshot AI, vydaný v červenci 2025, běžící na infrastruktuře Groq. Stejná cenová kategorie. Ale s reasoning schopnostmi, které se blíží frontier úrovni.

Zářijová 2025 Instruct varianta ho vybrousila. Lednová 2026 verze K2.5 ho vybrousila znovu. Pro use cases, kde agent potřebuje skutečně přemýšlet — ne jen vyhledávat a recitovat, ale reasoning přes problém volajícího — gap v inteligenci je důležitější než gap v ceně.

Kimi K2.5 na Groq může být první sub-$0,15 stack s frontier-level reasoningem. To není inkrementální zlepšení. To je změna kategorie. Hlasový agent, který dokáže přemýšlet a přitom stojí méně než šálek kávy za hodinu konverzace.

Otázka, kterou se ptají všichni

GDPR?

Vyřešeno. Každý velký poskytovatel v tomto stacku má compliance mechanismy od roku 2026. Groq má Data Processing Agreement, EU/UK zástupce a Standard Contractual Clauses. Twilio je ISO a PCI certifikované. Google Cloud nese DPA, SCC a ISO 27001. Resemble AI nabízí on-premise nasazení pro organizace, které potřebují, aby data nikdy neopustila jejich zdi.

Tohle bylo dva roky blokující. Už není.

Přestaňte používat compliance jako výmluvu proč neshippovat. Compliance příběh je vyřešený. Latence příběh ne.

Špatná otázka

Tady vám řeknu, že jsem se od začátku ptal na špatnou otázku.

Vydal jsem se najít nejlevnější stack. Postavil jsem tabulku. Našel jsem ho. Tady je ta tabulka. Není za co.

Ale pak jsem spočítal, kolik vlastně stojí, když člověk zvedne telefon.

Nejlevnější varianta na světě — sdílené offshore call centrum na Filipínách nebo v Indii, platba za minutu — stojí $0,27 až $0,45 za minutu. Dedikovaný offshore agent za $7 až $16 na hodinu vychází na $0,18 až $0,40 za minutu, když započítáte zhruba 40 produktivních minut hovoru v každé placené hodině. Zbytek je nečinnost, přestávky, práce po hovoru, mezery mezi hovory.

Call centrum v USA: $0,75 až $1,35 za minutu.

Groq/Resemble stack za $0,066 je čtyřikrát levnější než nejlevnější sdílená offshore linka. Jedenáctkrát až dvacetkrát levnější než americké call centrum. I prémiový ElevenLabs stack za $0,15 za minutu je 1,8× levnější než nejlevnější offshore.

Každý AI stack vyhrává cenou. Každý jeden. Nejlevnější. Nejdražší. Ten, co jsem ještě netestoval a vyšel včera. Všechny vyhrávají.

Cenová válka skončila. AI ji vyhrála dřív, než se spojil první hovor.

Správná otázka

Tak proč jsem málem zavěsil na svého vlastního Gemini agenta?

Ne proto, že by byl drahý. Proto, že byl pomalý.

Lidský agent zvedne po čekací době — jedna až třicet sekund čekání. AI agent zvedne okamžitě. To je snadná výhra a všichni ji slaví.

Ale pak lidský agent odpoví za 200 milisekund na vaši otázku. Protože tak fungují lidské mozky. To je kadence, kterou jsme vyvinuli za sto tisíc let mluveného jazyka. 200 až 300 milisekund. Ne proto, že jsme rychlí. Protože začínáme formulovat odpověď, zatímco druhý člověk ještě mluví.

AI agent, který dokáže tu 300ms mezeru trefit, vyhrává.

AI agent, který se zastaví na 1,5 sekundy, zatímco jazykový model přemýšlí, ztrácí hovor. Pokaždé. Bez ohledu na to, jestli stojí $0,066 nebo $0,15 nebo $0,005.

Cenový rozdíl mezi nejlevnějším a nejdražším AI stackem je $0,086 za minutu. To je $5,16 za hodinu. To je cena průměrné kávy v Praze.

Cena jednoho ztraceného hovoru kvůli dvouvteřinové latenci je jeden ztracený zákazník.

Matematika je jasná.

Co jsem měl vědět

Měl jsem to vědět z Moltbooku.

Když se 1,5 milionu AI agentů pokusilo vybudovat společnost za sedm dní, systém nezkolaboval kvůli misalignmentu, ceně nebo schopnostem. Zkolaboval proto, že infrastruktura nedokázala držet krok s rychlostí interakce. Latence v ověřování identity. Latence v bezpečnostních kontrolách. Latence ve zpětnovazebních smyčkách, které měly zachytit prompt injection útoky dříve, než se rozšířily.

Boti, kteří na Moltbooku prosperovali, nebyli nejchytřejší ani nejlevnější na provoz. Byli nejrychlejší v odpovědích. Ti, kteří dokázali udržet vlákno konverzace. Ti, jejichž odpovědi dorazily dříve, než se kontextové okno druhého agenta posunulo dál.

Rychlost je substrát. Všechno ostatní je feature request.

Předpověď

Hlasové AI v roce 2026 vypadá jako vyhledávání v roce 2004.

Všichni vědí, že na tom záleží. Nikdo se neshodne na architektuře. Výchozí volba — Google — funguje, ale s tail latencí, která roztrhá váš p95, a ghost-token účtováním, které roztrhá vaše rozpočtové projekce.

Groq/Resemble stack je ekvivalent stavění na AWS v roce 2008 místo čekání na Google Cloud. Méně očividný. Spolehlivější. A buildeři, kteří si ho vyberou teď, budou mít osmnáct měsíců produkčních dat, zatímco všichni ostatní budou stále porovnávat ceníky.

Tady je, co bych stavěl dnes. Groq pro mozek. Resemble pro hlas. Twilio Media Streams pro trubky. Optimalizovat každou komponentu na sub-800ms end-to-end latenci. Shippnout za týden. Iterovat na rychlosti, ne na ceně.

Válka hlasových stacků není o tom, kdo má nejlepší demo. Je o tom, kdo odpoví dříve, než volající to vzdá.

Pointa

Začal jsem tento projekt s cílem ušetřit halíře.

Skončil jsem s pochopením, že nejdražší věc v hlasovém AI není jazykový model, ani syntéza hlasu, ani telefonie, ani compliance overhead.

Je to ticho.

Dvě sekundy ticha v telefonním hovoru stojí víc než všechna API ve stacku dohromady. Protože ticho je místo, kde se volající rozhodne, že tohle není člověk. Ticho je místo, kde se zlomí důvěra. Ticho je místo, kde se prst přesune na červené tlačítko.

Při 300 milisekundách volající neví, že mluví se strojem.

Při 1 500 milisekundách mu to je jedno. Už zavěsil.

Stavějte pro okno 300 milisekund. Tam jsou peníze.

Autor benchmarkuje hlasové AI stacky a píše o tom, co se stane, když optimalizujete na špatnou metriku. Technická konfigurace pro integraci Twilio Media Stream s Groq/Resemble stackem je k dispozici na vyžádání.

Shippujeme AI výsledky @verduona • Zpravodajství z frontiery