Okno 300 milisekund

Dwa tygodnie temu wyruszyłem szukać najtańszego stosu głosowego AI w Europie.

Testowałem każdą kombinację. Groq, Gemini, Resemble, ElevenLabs, Twilio, Kimi. Pisałem benchmarki. Budowałem arkusze. Liczyłem koszt za minutę do czwartego miejsca po przecinku.

Znalazłem odpowiedź. A potem zdałem sobie sprawę, że zadawałem złe pytanie.

Punkt wyjścia

Oto kontekst. Buduję agentów głosowych dla projektu automatyzacji call center w Pradze. Pitch jest prosty: zastąpić człowieka przy telefonie czymś, co brzmi jak człowiek, reaguje jak człowiek i kosztuje mniej niż człowiek.

Każdy vendor deck, który widziałem, argumentuje tak samo: patrzcie, jak jesteśmy tani w porównaniu z waszymi agentami.

Zrobiłem więc to, co zrobiłby każdy inżynier. Sam zbudowałem porównanie.

Testowałem z Pragi. Prawdziwa telefonia. Prawdziwy speech-to-text. Prawdziwe modele językowe. Prawdziwa synteza głosu. End-to-end, tak jak dzwoniący naprawdę to doświadcza.

Pierwsza rzecz, której się nauczyłem, nie miała nic wspólnego z ceną.

Cisza

Zadzwoniłem do mojego własnego agenta napędzanego Gemini we wtorek po południu. Odebrał natychmiast. Powiedziałem: "Dzień dobry, chciałbym sprawdzić status mojego zamówienia."

Potem nic.

Jedna sekunda. Dwie sekundy. Sprawdziłem, czy połączenie nie zerwało się. Trzy sekundy. Miałem już się rozłączyć, kiedy głos wrócił — przyjemny, artykułowany, całkowicie poprawny.

Ale po drugiej sekundzie już mnie nie było. Nie fizycznie — wciąż byłem na linii. Ale psychologicznie odszedłem. Zaufanie zostało złamane. Cokolwiek przyszło potem, było odzyskiwaniem, nie rozmową.

Ten sam test przeprowadziłem z Groq. Odpowiedź przyszła w mniej niż sekundę. Nie zauważyłem przerwy. Po prostu... kontynuowałem rozmowę. Jak z człowiekiem.

Wtedy przestałem optymalizować pod grosze i zacząłem optymalizować pod milisekundy.

Ta liczba

Trzysta milisekund.

To naturalna przerwa między rozmówcami w ludzkiej konwersacji. To nie jest decyzja projektowa ani preferencja UX. To neurologiczne. Hardwired. Każdy człowiek na Ziemi oczekuje, że następny rozmówca zacznie w ciągu 300 ms od momentu, gdy poprzedni przestanie.

Poniżej 300 ms przerywasz. Powyżej 500 ms coś jest nie tak — nieprawidłowość, której nie potrafisz nazwać, ale twoje ciało natychmiast ją rejestruje. Powyżej 800 ms rozmowa brzmi robotycznie. Powyżej sekundy sięgasz po przycisk zakończenia połączenia.

Badania w tym zakresie są brutalne i jednoznaczne. Call centra raportują o 40% więcej rozłączeń, gdy agent głosowy przekracza sekundę opóźnienia odpowiedzi. Współczynniki konwersji spadają o około 7% na każde 100 ms dodatkowego opóźnienia. Jedna trzecia dzwoniących rezygnuje, jeśli czuje, że nie dostaje szybkiej odpowiedzi.

Jedna trzecia.

Spędziłem dwa tygodnie porównując stosy, które różnią się o $0,08 za minutę. Prawdziwym wyróżnikiem jest okno czasowe krótsze niż mrugnięcie oka.

Co faktycznie zmierzyłem

Mierzyłem end-to-end opóźnienie tury z Pragi. Nie network round-trip — rzeczywisty czas od momentu, gdy przestaję mówić, do pierwszego bajtu audio docierającego do mojego ucha.

Groq z Llama 3.3 70B na ich sprzęcie LPU w Helsinkach: poniżej dwóch sekund, konsekwentnie. Konsekwencja jest kluczowa. Nie średnia — konsekwencja. Każde połączenie. Każda tura. Żadnych skoków.

Gemini 2.5 Flash, GA od czerwca 2025, zlokalizowany w Finlandii i Belgii: jedna do trzech sekund w dobrych przypadkach. Ale "dobre przypadki" to eufemizm. P95 to miejsce, gdzie pochowane są ciała. Na papierze średnia latencja Gemini wygląda konkurencyjnie. W produkcji co szósta lub siódma tura trafia na wielosekundowy skok. To nie jest problem statystyczny. To rozłączenie.

Znam zespół, który raportował "świetną" średnią latencję 400 ms u swojego agenta głosowego. W dashboardzie wyglądało cudownie. Potem wgłębili się w rozkład i odkryli, że 15% tur trafiało na dwie sekundy lub więcej. Ich użytkownicy nie narzekali na średnią wydajność. Ich użytkownicy rozłączali się z powodu tail latency.

Średnia ukryła wszystko.

Grok od xAI: solidny na jednej do czterech sekund, ale function calling wielokrotnie się łamał. Dobry do chatu. Zawodny dla agentów, którzy muszą faktycznie coś robić.

Brudny sekret

Jest coś, o czym nikt nie mówi w kontekście cennika Gemini.

Wygląda na to, że Google wstępnie generuje tokeny — spekulatywnie generuje odpowiedzi dla symulacji szybkości, a potem odrzuca niewykorzystane dane wyjściowe. Płacisz za tokeny, które nigdy nie docierają do dzwoniącego.

Spróbuj obliczyć swój rzeczywisty koszt za minutę w produkcji. Nie da się. Licznik biegnie na ghost tokenach.

Na papierze natywny stos głosowy na Gemini wychodzi około $0,06 za minutę. Zdecydowanie najtańsza opcja. W praktyce nikt, z kim rozmawiałem, nie potrafi odtworzyć tej liczby przez tydzień ruchu produkcyjnego.

Najtańsze API to takie, które nie nalicza ci za halucynowaną pracę.

Anatomia centa

Powiedziałem, że znalazłem odpowiedź. Oto ona, komponent po komponencie. Każda liczba zweryfikowana, każde źródło sprawdzone.

Speech-to-text: Whisper Large v3 Turbo na Groq. Czterdzieści centów za godzinę. To $0,0003 za minutę rozmowy. Trzy setne centa. W zasadzie błąd zaokrąglenia w księdze rachunkowej wszechświata.

Mózg: Llama 3.3 70B na Groq LPU. $0,59 za milion tokenów wejściowych, $0,79 za milion wyjściowych. Typowa minuta rozmowy — cztery tury, system prompt, okno kontekstowe, wypowiedzi użytkownika, odpowiedzi agenta — kosztuje $0,0017. Mniej niż dwie dziesiąte centa.

Głos: Resemble AI za $0,06 za minutę. Ponad czterdzieści głosów. Klonowanie głosu dostępne. Wdrożenie on-premise dla rezydencji danych.

Rury: Twilio Media Streams za $0,004 za minutę.

Suma: $0,066 za minutę.

Przeczytaj te liczby jeszcze raz. Mózg i uszy kosztują łącznie dwie dziesiąte centa. Inteligencja jest za darmo. Słuchanie jest za darmo. Dziewięćdziesiąt jeden procent całego rachunku to głos — warstwa syntezy, część zamieniająca tokeny na fale dźwiękowe.

To, za co płacisz, to nie myślenie. To mówienie.

Wersja premium

Dla kompletności: zamień Resemble na ElevenLabs za około $0,08 za minutę i Twilio Media Streams na Twilio ConversationRelay za $0,07 za minutę. Dodaj Gemini 3 Flash Preview dla warstwy tekstowej. Suma wychodzi na około $0,15 za minutę.

To 2,3 razy więcej niż stos Groq/Resemble. Dodatkowe $0,086 kupuje ci dziesięć tysięcy głosów i enterprise dashboardy obserwowalności, które świetnie wyglądają w prezentacjach zakupowych.

Klienci enterprise lubią płacić za ubezpieczenie. Builderzy lubią shippować.

Wariant wart obserwacji

Kimi K2 od Moonshot AI, wydany w lipcu 2025, działający na infrastrukturze Groq. Ta sama półka cenowa. Ale ze zdolnościami reasoning zbliżającymi się do poziomu frontier.

Wrześniowa 2025 wersja Instruct go wyostrzyła. Styczniowa 2026 wersja K2.5 wyostrzyła go ponownie. Dla use case'ów, gdzie agent musi naprawdę myśleć — nie tylko wyszukiwać i recytować, ale reasoning przez problem dzwoniącego — luka w inteligencji ma większe znaczenie niż luka w cenie.

Kimi K2.5 na Groq może być pierwszym stosem sub-$0,15 z prawdziwym frontier-level reasoningiem. To nie jest przyrostowe ulepszenie. To zmiana kategorii. Agent głosowy, który potrafi myśleć, kosztując mniej niż filiżanka kawy za godzinę rozmowy.

Pytanie, które zadają wszyscy

GDPR?

Rozwiązane. Każdy duży dostawca w tym stosie ma mechanizmy compliance od 2026 roku. Groq ma Data Processing Agreement, przedstawicieli UE/UK i Standard Contractual Clauses. Twilio jest certyfikowane ISO i PCI. Google Cloud niesie DPA, SCC i ISO 27001. Resemble AI oferuje wdrożenie on-premise dla organizacji, które potrzebują, żeby dane nigdy nie opuściły ich murów.

To był bloker przez dwa lata. Już nie jest.

Przestańcie używać compliance jako wymówki, żeby nie shippować. Historia compliance jest zamknięta. Historia latencji nie.

Złe pytanie

Tu wam powiem, że od początku zadawałem złe pytanie.

Wyruszyłem znaleźć najtańszy stos. Zbudowałem arkusz. Znalazłem go. Oto arkusz. Proszę bardzo.

Ale potem policzyłem, ile tak naprawdę kosztuje, gdy człowiek odbiera telefon.

Najtańsza opcja na świecie — współdzielone offshore call centrum na Filipinach lub w Indiach, rozliczenie za minutę — kosztuje $0,27 do $0,45 za minutę. Dedykowany agent offshore za $7 do $16 za godzinę wychodzi na $0,18 do $0,40 za minutę, gdy uwzględnisz około 40 produktywnych minut rozmowy w każdej opłaconej godzinie. Reszta to czas bezczynności, przerwy, praca po połączeniu, luki między połączeniami.

Call centrum w USA: $0,75 do $1,35 za minutę.

Stos Groq/Resemble za $0,066 jest cztery razy tańszy niż najtańsza współdzielona linia offshore. Jedenaście do dwudziestu razy tańszy niż amerykańskie call centrum. Nawet premium stos ElevenLabs za $0,15 za minutę jest 1,8 razy tańszy niż najtańszy offshore.

Każdy stos AI wygrywa ceną. Każdy jeden. Najtańszy. Najdroższy. Ten, którego jeszcze nie testowałem, a wyszedł wczoraj. Wszystkie wygrywają.

Wojna cenowa się skończyła. AI wygrała ją zanim połączyło się pierwsze połączenie.

Właściwe pytanie

Więc dlaczego prawie się rozłączyłem z moim własnym agentem Gemini?

Nie dlatego, że był drogi. Dlatego, że był wolny.

Ludzki agent odbiera po czasie oczekiwania — od jednej do trzydziestu sekund czekania. Agent AI odbiera natychmiast. To łatwa wygrana i wszyscy ją świętują.

Ale potem ludzki agent odpowiada w 200 milisekund na twoje pytanie. Bo tak działają ludzkie mózgi. To kadencja, którą rozwinęliśmy przez sto tysięcy lat języka mówionego. 200 do 300 milisekund. Nie dlatego, że jesteśmy szybcy. Dlatego, że zaczynamy formułować odpowiedź, podczas gdy druga osoba jeszcze mówi.

Agent AI, który potrafi trafić tę 300ms przerwę, wygrywa.

Agent AI, który zatrzymuje się na 1,5 sekundy, podczas gdy model językowy myśli, traci połączenie. Za każdym razem. Niezależnie od tego, czy kosztuje $0,066 czy $0,15 czy $0,005.

Różnica cenowa między najtańszym a najdroższym stosem AI to $0,086 za minutę. To $5,16 za godzinę. To cena przeciętnej kawy w Pradze.

Koszt jednego utraconego połączenia z powodu dwusekundowej latencji to jeden utracony klient.

Matematyka jest jasna.

Co powinienem był wiedzieć

Powinienem był to wiedzieć z Moltbooka.

Kiedy 1,5 miliona agentów AI próbowało zbudować społeczeństwo w siedem dni, system nie załamał się z powodu misalignmentu, kosztu czy zdolności. Załamał się, ponieważ infrastruktura nie nadążała za szybkością interakcji. Latencja w weryfikacji tożsamości. Latencja w kontrolach bezpieczeństwa. Latencja w pętlach sprzężenia zwrotnego, które miały wychwycić ataki prompt injection zanim się rozprzestrzeniły.

Boty, które prosperowały na Moltbooku, nie były najinteligentniejsze ani najtańsze w utrzymaniu. Były najszybsze w odpowiedziach. Te, które potrafiły utrzymać wątek konwersacji. Te, których odpowiedzi docierały zanim okno kontekstowe drugiego agenta przesunęło się dalej.

Szybkość to substrat. Wszystko inne to feature request.

Prognoza

Głosowe AI w 2026 wygląda jak wyszukiwanie w 2004.

Wszyscy wiedzą, że to ważne. Nikt nie zgadza się co do architektury. Domyślny wybór — Google — działa, ale z tail latency, które rozszarpie twoje p95, i ghost-token naliczaniem, które rozszarpie twoje projekcje budżetowe.

Stos Groq/Resemble to odpowiednik budowania na AWS w 2008 zamiast czekania na Google Cloud. Mniej oczywisty. Bardziej niezawodny. A builderzy, którzy go wybiorą teraz, będą mieli osiemnaście miesięcy danych produkcyjnych, podczas gdy wszyscy inni będą wciąż porównywać cenniki.

Oto co bym budował dzisiaj. Groq na mózg. Resemble na głos. Twilio Media Streams na rury. Optymalizować każdy komponent pod sub-800ms end-to-end latencję. Shippnąć w tydzień. Iterować na szybkości, nie na koszcie.

Wojna stosów głosowych nie jest o tym, kto ma najlepsze demo. Jest o tym, kto odpowie zanim dzwoniący się podda.

Puenta

Zacząłem ten projekt próbując zaoszczędzić grosze.

Skończyłem ze zrozumieniem, że najdroższą rzeczą w głosowym AI nie jest model językowy, ani synteza głosu, ani telefonia, ani overhead compliance.

To cisza.

Dwie sekundy ciszy w rozmowie telefonicznej kosztują więcej niż wszystkie API w stosie razem wzięte. Bo cisza to miejsce, gdzie dzwoniący decyduje, że to nie jest człowiek. Cisza to miejsce, gdzie łamie się zaufanie. Cisza to miejsce, gdzie palec przesuwa się na czerwony przycisk.

Przy 300 milisekundach dzwoniący nie wie, że rozmawia z maszyną.

Przy 1500 milisekundach nie obchodzi go to. Już się rozłączył.

Buduj pod okno 300 milisekund. Tam są pieniądze.

Autor benchmarkuje stosy głosowego AI i pisze o tym, co się dzieje, gdy optymalizujesz pod złą metrykę. Konfiguracja techniczna integracji Twilio Media Stream ze stosem Groq/Resemble jest dostępna na życzenie.

Shippujemy wyniki AI @verduona • Wywiad z frontiery