Słowniczek voice AI

Pojęcia z głosowego AI, telefonii i panelu Adama - co znaczą i co Adam z nimi robi.

Głos i mowa

Maszyneria audio, na której działa każda rozmowa AI.

ASR (automatyczne rozpoznawanie mowy)
System, który na bieżąco zamienia mowę rozmówcy na tekst. Inaczej speech-to-text. Jego trafność wyznacza sufit dla całej reszty i mierzy się ją współczynnikiem WER na prawdziwym nagraniu rozmowy. Działa w czasie rzeczywistym, podając słowa, zanim rozmówca skończy zdanie - i to pierwsza rzecz, którą stroimy dla każdego języka, polski najmocniej.
STT (speech-to-text)
To samo co ASR, pod nazwą, której częściej używają platformy chmurowe. U Adama wchodzi w cenę za minutę - bez osobnego dostawcy mowy do wpięcia i opłacenia.
TTS (synteza mowy)
System, który zamienia słowa Adama na głos w słuchawce. Oceniany po naturalności, prozodii i tym, jak szybko pojawia się pierwszy dźwięk. Każdy język dostaje natywny głos dostrojony pod siebie, nie ogólny doklejony z boku.
Klonowanie głosu
Zbudowanie syntetycznego głosu z krótkiego nagrania prawdziwej osoby. Adam nie klonuje twoich pracowników - każdy język dostaje własny natywny głos, żeby polski brzmiał po polsku, a nie jak tłumaczenie.
Latencja
Odstęp między końcem zdania rozmówcy a początkiem odpowiedzi Adama. Poniżej mniej więcej 400 milisekund brzmi jak normalna rozmowa; powyżej sekundy ludzie wyczuwają zwłokę i się wyłączają. Trzymanie jej nisko to większość inżynierii agenta głosowego.
Barge-in
Gdy rozmówca wchodzi Adamowi w słowo. Agent produkcyjny musi wychwycić to w jakieś 150 milisekund, czysto zamilknąć i potraktować przerwanie jako właściwą wypowiedź. Ludzie bez przerwy przerywają rozmowy telefoniczne, więc to absolutna podstawa.
VAD (detekcja aktywności głosowej)
Komponent, który decyduje, że rozmówca skończył mówić. Strojenie to kompromis między czujnością - wejściem za wcześnie - a cierpliwością - przeczekaniem pauzy w środku zdania. Złe strojenie to najczęstszy powód, dla którego agenci przerywają rozmówcom.
Wykrywanie tury
Szersza ocena, czyja jest kolej mówić - VAD plus kontekst tego, co już padło. Dobre zmienianie się turami to różnica między rozmową a dwoma monologami mijającymi się w powietrzu.
Diaryzacja
Rozróżnienie, kto co powiedział, gdy na linii jest więcej niż jedna osoba. Utrzymuje porządek w transkrypcji i mówi Adamowi, któremu głosowi odpowiadać.
WER (word error rate)
Standardowa miara trafności rozpoznawania mowy: słowa przekręcone, zgubione albo zmyślone na tle wszystkiego, co powiedziano. Im niżej, tym lepiej. Zaszumione linie i nazwy własne podbijają wynik; czyste nagranie trzyma go w granicach jednocyfrowych.

Telefonia

Jak połączenie dociera do telefonu.

PSTN
Publiczna komutowana sieć telefoniczna - globalny system, na którym wisi każda komórka i każdy stacjonarny. Połączenia Adama to zwykłe telefony w tej sieci: dzwoni prawdziwy telefon, bez żadnej aplikacji.
SIP
Session initiation protocol - sposób zestawiania, prowadzenia i kończenia połączeń przez internet. Hydraulika współczesnej telefonii.
SIP trunking
Przenoszenie połączeń do i z systemu telefonicznego przez SIP zamiast fizycznych łączy - sposób, w jaki firma podłącza swoją telefonię do sieci zewnętrznej.
E.164
Międzynarodowy format numeru telefonu: plus, kod kraju, numer, bez spacji - +48512345678. Format, którego oczekują importy leadów i API Adama.
Caller ID
Numer widoczny na dzwoniącym telefonie. Adam dzwoni z prawdziwych, dedykowanych numerów - nie z anonimowych ani podszytych.
DTMF
Tony wybierania z klawiatury telefonu - sygnały „wciśnij 1", na których działają stare menu telefoniczne.
IVR
Interactive voice response - drzewko menu, które większość ludzi widzi przed oczami, słysząc „automatyczny telefon". Agenci konwersacyjni jak Adam zastępują menu zwyczajną rozmową.
Wykrywanie poczty głosowej
Odróżnienie żywego „halo?" od poczty głosowej w pierwszych sekundach połączenia. Od tego zależy, czy Adam prowadzi rozmowę, czy grzecznie planuje kolejną próbę.
Ciepłe przekazanie
Przekazanie rozmówcy człowiekowi razem z kontekstem, zamiast zimnego transferu. U Adama to gorąca kolejka: lead, transkrypcja i powód, dla którego jest gorący, czekają na telefon od człowieka.
Połączenia równoległe
Ile połączeń trwa w tym samym momencie. Wyznacza, jak szybko kampania obrabia listę - leady prowadzone równolegle, a nie jeden po drugim.

Platforma Adam

Pojęcia z panelu Adama.

Pathway (scenariusz rozmowy)
Zaprojektowana rozmowa: od czego Adam zaczyna, o co pyta, jak reaguje, kiedy kończy. Nowy przypadek użycia to nowy scenariusz, nie nowy produkt.
Wynik rozmowy
Jak zakończyła się rozmowa, w jednym polu: zakwalifikowany, umówione oddzwonienie, brak zainteresowania, brak odpowiedzi. Po wynikach filtrujesz, liczysz i kierujesz dalej.
Ekstrakcja
Zamiana rozmowy na pola, na których można działać: nadal sprzedaje - tak; termin - przyszły miesiąc; cena - 30 000. Każda rozmowa zwraca odpowiedzi jako dane, obok transkrypcji i nagrania.
Guard rail
Reguła, która ustala, co Adamowi wolno, a czego nie - przedstawić się jako AI, trzymać się tematu, przerwać w chwili, gdy ktoś się wypisze. Pilnuje jej platforma, nie scenariusz.

Zgodność i prywatność

Zasady, pod którymi żyje dzwonienie AI w UE - i jak platforma ich pilnuje.

RODO / GDPR
Unijne rozporządzenie o ochronie danych. Dla danych rozmów administratorem jest nasz klient - to jego leady - a Adam Calling jest podmiotem przetwarzającym; platformowa strona tego podziału (retencja, usuwanie, eksport) jest wbudowana.
Administrator i podmiot przetwarzający
Kto decyduje, po co dane są przetwarzane (administrator - nasz klient), a kto przetwarza je na jego polecenie (podmiot przetwarzający - my). Rozróżnienie, na którym RODO wiesza każdy obowiązek.
AI Act
Unijne prawo o AI. Wymaga między innymi, żeby ludzie wiedzieli, że rozmawiają z AI - dlatego Adam przedstawia się jako AI na początku każdej rozmowy.
Zgoda i opt-in
Adam dzwoni do osób, które zgodziły się na kontakt. Listy zgód i rejestry zakazu połączeń są sprawdzane przed wybraniem numeru, nie po skargach.
Rejestr zakazu połączeń
Rejestr numerów, do których nie wolno dzwonić z marketingiem. Sprawdzany, zanim kampania zacznie wybierać.
Rezydencja danych
Gdzie dane fizycznie mieszkają. U Adama: obliczenia, przechowywanie i baza w AWS we Frankfurcie; telefonia i przetwarzanie głosu osadzone w Europie; analiza po rozmowie na unijnych endpointach modeli.
Retencja
Jak długo dane rozmów są trzymane. Nagrania domyślnie 90 dni, termin należy do ciebie, a eksport i kasacja są zawsze dostępne.
Szyfrowanie
Nagrania i dane są szyfrowane w spoczynku we Frankfurcie i w tranzycie wszędzie. Standardowo, weryfikowalnie, nudno - tak jak powinno wyglądać bezpieczeństwo.
Umowa powierzenia (DPA)
Umowa, która przybija obowiązki podmiotu przetwarzającego z tej strony. Dostępna na życzenie: hello@adamcalling.com.