Agenci głosowi wobec klientów dwujęzycznych. Test systemów ASR na mowie mieszanej

Naukowcy z Hugging Face przebadali, jak dobrze współczesne systemy do automatycznego rozpoznawania mowy radzą sobie z mówieniem, w którym osoba przełącza się między dwoma językami w trakcie jednej wypowiedzi. Takie code-switching to naturalne zachowanie dla miliardów dwujęzycznych użytkowników na całym świecie. Problem w tym, że większość popularnych modeli ASR została trenowana głównie na mowie w jednym języku.

Wyniki pokazują, że nawet najlepsze dostępne dziś systemy — te zagwarantowane agenci głosowych — notują wyraźnie gorszą dokładność, gdy słuchają mieszanej mowy. Różnica błędów może sięgać nawet kilkanaście procent w porównaniu do czystych nagrań jednojęzycznych. To znaczący spadek wydajności, który może prowadzić do frustracji użytkowników i błędnych odpowiedzi systemów.

Badanie podkreśla, że wraz z globalizacją rynku agentów głosowych obsługujący klientów przedsiębiorstwa muszą zadbać o zdolność komunikacji w rzeczywistości wielojęzycznych miast i społeczności. Zbiory danych treningowych powinny zawierać więcej przykładów code-switchingu, a modele muszą być specjalnie dostrajane, aby obsługiwać ten typ mowy. W przeciwnym razie czeka nas spora luka w dostępności technologii AI dla dwujęzycznych użytkowników.