Słowniczek voice AI
Pojęcia z głosowego AI, telefonii i panelu Adama - co znaczą i co Adam z nimi robi.
Głos i mowa
Maszyneria audio, na której działa każda rozmowa AI.
- ASR (automatyczne rozpoznawanie mowy)
- System, który na bieżąco zamienia mowę rozmówcy na tekst. Inaczej speech-to-text. Jego trafność wyznacza sufit dla całej reszty i mierzy się ją współczynnikiem WER na prawdziwym nagraniu rozmowy. Działa w czasie rzeczywistym, podając słowa, zanim rozmówca skończy zdanie - i to pierwsza rzecz, którą stroimy dla każdego języka, polski najmocniej.
- STT (speech-to-text)
- To samo co ASR, pod nazwą, której częściej używają platformy chmurowe. U Adama wchodzi w cenę za minutę - bez osobnego dostawcy mowy do wpięcia i opłacenia.
- TTS (synteza mowy)
- System, który zamienia słowa Adama na głos w słuchawce. Oceniany po naturalności, prozodii i tym, jak szybko pojawia się pierwszy dźwięk. Każdy język dostaje natywny głos dostrojony pod siebie, nie ogólny doklejony z boku.
- Klonowanie głosu
- Zbudowanie syntetycznego głosu z krótkiego nagrania prawdziwej osoby. Adam nie klonuje twoich pracowników - każdy język dostaje własny natywny głos, żeby polski brzmiał po polsku, a nie jak tłumaczenie.
- Latencja
- Odstęp między końcem zdania rozmówcy a początkiem odpowiedzi Adama. Poniżej mniej więcej 400 milisekund brzmi jak normalna rozmowa; powyżej sekundy ludzie wyczuwają zwłokę i się wyłączają. Trzymanie jej nisko to większość inżynierii agenta głosowego.
- Barge-in
- Gdy rozmówca wchodzi Adamowi w słowo. Agent produkcyjny musi wychwycić to w jakieś 150 milisekund, czysto zamilknąć i potraktować przerwanie jako właściwą wypowiedź. Ludzie bez przerwy przerywają rozmowy telefoniczne, więc to absolutna podstawa.
- VAD (detekcja aktywności głosowej)
- Komponent, który decyduje, że rozmówca skończył mówić. Strojenie to kompromis między czujnością - wejściem za wcześnie - a cierpliwością - przeczekaniem pauzy w środku zdania. Złe strojenie to najczęstszy powód, dla którego agenci przerywają rozmówcom.
- Wykrywanie tury
- Szersza ocena, czyja jest kolej mówić - VAD plus kontekst tego, co już padło. Dobre zmienianie się turami to różnica między rozmową a dwoma monologami mijającymi się w powietrzu.
- Diaryzacja
- Rozróżnienie, kto co powiedział, gdy na linii jest więcej niż jedna osoba. Utrzymuje porządek w transkrypcji i mówi Adamowi, któremu głosowi odpowiadać.
- WER (word error rate)
- Standardowa miara trafności rozpoznawania mowy: słowa przekręcone, zgubione albo zmyślone na tle wszystkiego, co powiedziano. Im niżej, tym lepiej. Zaszumione linie i nazwy własne podbijają wynik; czyste nagranie trzyma go w granicach jednocyfrowych.
Telefonia
Jak połączenie dociera do telefonu.
- PSTN
- Publiczna komutowana sieć telefoniczna - globalny system, na którym wisi każda komórka i każdy stacjonarny. Połączenia Adama to zwykłe telefony w tej sieci: dzwoni prawdziwy telefon, bez żadnej aplikacji.
- SIP
- Session initiation protocol - sposób zestawiania, prowadzenia i kończenia połączeń przez internet. Hydraulika współczesnej telefonii.
- SIP trunking
- Przenoszenie połączeń do i z systemu telefonicznego przez SIP zamiast fizycznych łączy - sposób, w jaki firma podłącza swoją telefonię do sieci zewnętrznej.
- E.164
- Międzynarodowy format numeru telefonu: plus, kod kraju, numer, bez spacji - +48512345678. Format, którego oczekują importy leadów i API Adama.
- Caller ID
- Numer widoczny na dzwoniącym telefonie. Adam dzwoni z prawdziwych, dedykowanych numerów - nie z anonimowych ani podszytych.
- DTMF
- Tony wybierania z klawiatury telefonu - sygnały „wciśnij 1", na których działają stare menu telefoniczne.
- IVR
- Interactive voice response - drzewko menu, które większość ludzi widzi przed oczami, słysząc „automatyczny telefon". Agenci konwersacyjni jak Adam zastępują menu zwyczajną rozmową.
- Wykrywanie poczty głosowej
- Odróżnienie żywego „halo?" od poczty głosowej w pierwszych sekundach połączenia. Od tego zależy, czy Adam prowadzi rozmowę, czy grzecznie planuje kolejną próbę.
- Ciepłe przekazanie
- Przekazanie rozmówcy człowiekowi razem z kontekstem, zamiast zimnego transferu. U Adama to gorąca kolejka: lead, transkrypcja i powód, dla którego jest gorący, czekają na telefon od człowieka.
- Połączenia równoległe
- Ile połączeń trwa w tym samym momencie. Wyznacza, jak szybko kampania obrabia listę - leady prowadzone równolegle, a nie jeden po drugim.
Platforma Adam
Pojęcia z panelu Adama.
- Pathway (scenariusz rozmowy)
- Zaprojektowana rozmowa: od czego Adam zaczyna, o co pyta, jak reaguje, kiedy kończy. Nowy przypadek użycia to nowy scenariusz, nie nowy produkt.
- Wynik rozmowy
- Jak zakończyła się rozmowa, w jednym polu: zakwalifikowany, umówione oddzwonienie, brak zainteresowania, brak odpowiedzi. Po wynikach filtrujesz, liczysz i kierujesz dalej.
- Ekstrakcja
- Zamiana rozmowy na pola, na których można działać: nadal sprzedaje - tak; termin - przyszły miesiąc; cena - 30 000. Każda rozmowa zwraca odpowiedzi jako dane, obok transkrypcji i nagrania.
- Guard rail
- Reguła, która ustala, co Adamowi wolno, a czego nie - przedstawić się jako AI, trzymać się tematu, przerwać w chwili, gdy ktoś się wypisze. Pilnuje jej platforma, nie scenariusz.
Zgodność i prywatność
Zasady, pod którymi żyje dzwonienie AI w UE - i jak platforma ich pilnuje.
- RODO / GDPR
- Unijne rozporządzenie o ochronie danych. Dla danych rozmów administratorem jest nasz klient - to jego leady - a Adam Calling jest podmiotem przetwarzającym; platformowa strona tego podziału (retencja, usuwanie, eksport) jest wbudowana.
- Administrator i podmiot przetwarzający
- Kto decyduje, po co dane są przetwarzane (administrator - nasz klient), a kto przetwarza je na jego polecenie (podmiot przetwarzający - my). Rozróżnienie, na którym RODO wiesza każdy obowiązek.
- AI Act
- Unijne prawo o AI. Wymaga między innymi, żeby ludzie wiedzieli, że rozmawiają z AI - dlatego Adam przedstawia się jako AI na początku każdej rozmowy.
- Zgoda i opt-in
- Adam dzwoni do osób, które zgodziły się na kontakt. Listy zgód i rejestry zakazu połączeń są sprawdzane przed wybraniem numeru, nie po skargach.
- Rejestr zakazu połączeń
- Rejestr numerów, do których nie wolno dzwonić z marketingiem. Sprawdzany, zanim kampania zacznie wybierać.
- Rezydencja danych
- Gdzie dane fizycznie mieszkają. U Adama: obliczenia, przechowywanie i baza w AWS we Frankfurcie; telefonia i przetwarzanie głosu osadzone w Europie; analiza po rozmowie na unijnych endpointach modeli.
- Retencja
- Jak długo dane rozmów są trzymane. Nagrania domyślnie 90 dni, termin należy do ciebie, a eksport i kasacja są zawsze dostępne.
- Szyfrowanie
- Nagrania i dane są szyfrowane w spoczynku we Frankfurcie i w tranzycie wszędzie. Standardowo, weryfikowalnie, nudno - tak jak powinno wyglądać bezpieczeństwo.
- Umowa powierzenia (DPA)
- Umowa, która przybija obowiązki podmiotu przetwarzającego z tej strony. Dostępna na życzenie: hello@adamcalling.com.