Od eksperymentu do AvatarSpark – historia

Jak wieczorny eksperyment przerodził się w innowację. Historia AvatarSpark.

Nie każda innowacja zaczyna się od wielkiego planu i biznesplanu na sto stron. Czasem wystarczy jedno proste pytanie, które nie daje spokoju. W moim przypadku, project managera w dużej firmie technologicznej, to pytanie brzmiało: „Czy da się zrobić naprawdę, ale tak naprawdę dobry lip‑sync dla awatara AI?”.

Wszystko zaczęło się przypadkiem. W dzień zarządzałem projektami, deadline’ami i zespołami. Ale po godzinach, zamiast oglądać seriale, odpalałem edytor kodu. Fascynowały mnie modele AI, a w szczególności to, jak sprawić, by cyfrowa postać mówiła w sposób, który nie wywołuje wrażenia sztuczności. Chciałem, żeby ruch ust był idealnie zsynchronizowany z dźwiękiem, żeby to wyglądało… naturalnie.

To stało się moją małą obsesją. Dziesiątki wieczorów spędzonych na testowaniu różnych bibliotek, algorytmów i modeli. Było ciężko, ale kiedy w końcu zobaczyłem awatara, który poruszał ustami niemal tak płynnie jak człowiek, poczułem ten dreszcz ekscytacji. To było to! Ale zaraz po tym przyszła kolejna myśl, która pociągnęła za sobą lawinę.

Nocna scena — PM intensywnie myślący przy komputerze
Nocne eksperymenty — moment, w którym narodził się AvatarSpark.

Skoro Awatar Potrafi Mówić, to… Co Powinien Mówić?

Mój awatar potrafił już „mówić”, ale był tylko cyfrową marionetką. Potrzebował scenariusza. Jako project manager z krwi i kości, wiedziałem, że nikt nie chce uczyć się skomplikowanych narzędzi. Stworzyłem więc prosty edytor „przeciągnij i upuść”. Budowanie rozmowy wyglądało jak rysowanie schematu na tablicy – intuicyjnie i szybko.

Wtedy narodził się pierwszy prototyp czegoś, co później stało się AvatarSpark. Proste drzewka rozmów, świetny lip‑sync i realistyczny głos. Super. Ale to wciąż było za mało. Czułem, że to tylko czubek góry lodowej.

Gdy Jeden Model AI to za Mało – Narodziny Prawdziwej Inteligencji

  • Problem nr 1: Kto ma czas pisać te wszystkie scenariusze? Stworzenie rozbudowanej rozmowy to kupa roboty. Pomyślałem: „A co, jeśli AI mogłaby to zrobić za mnie?”. Tak powstał AI Story Wizard. Wrzucasz link do strony, PDF‑a z ofertą, a kreator sam analizuje treść i buduje całe drzewo dialogowe. To, co zajmowało kiedyś dni, teraz trwa minuty.
  • Problem nr 2: Chatboty są albo sztywne, albo nieprzewidywalne. Chciałem czegoś pośrodku – kontrolowanej swobody. I tak narodził się AI Flow: rozumie intencję użytkownika (LLM), ale odpowiedzi wybiera tylko z całej, zdefiniowanej przez Ciebie bazy wiedzy.
  • Problem nr 3: Co, jeśli padnie pytanie spoza scenariusza? Gdy system znajdzie odpowiedź w bazie wiedzy, potrafi sam dopisać brakujący fragment scenariusza. Platforma rośnie wraz z rozmowami.

Dyrygowanie Orkiestrą AI

AvatarSpark przestał być projektem „po godzinach”. Stał się pasją, która pochłaniała mnie bez reszty. To fascynujące uczucie, gdy dyrygujesz całą orkiestrą modeli AI: jeden odpowiada za głos (TTS), drugi za perfekcyjny ruch ust (lip‑sync), trzeci analizuje intencje użytkownika (LLM), a czwarty dynamicznie tworzy treść. Każdy z nich to oddzielna, skomplikowana technologia, a w AvatarSpark grają razem, tworząc spójne, ludzkie doświadczenie.

Zdałem sobie sprawę, że to, co zaczęło się od prostego pytania o ruch ust, może wnieść zupełnie nową jakość do komunikacji firm z klientami. Zamiast nudnych formularzy i frustrujących botów, mogą mieć inteligentnego, cyfrowego pracownika, który angażuje, pomaga i sprzedaje 24/7.

Dziś AvatarSpark to dojrzała platforma, ale w jej sercu wciąż drzemie ta sama iskra ciekawości co na początku. To dowód na to, że czasem najlepsze rzeczy rodzą się z pasji, nieprzespanych nocy i prostego pytania: „A co, jeśli…?”.