Badacze zaproponowali nową metodę poprawy modeli multimodalnych poprzez inteligentne przekształcanie przestrzeni etykiet. Podejście rozwiązuje problem nierównomiernego przyczynku różnych modalności (tekst, obraz, audio) do procesu uczenia. Ta technika może prowadzić do lepszej synchronizacji między modalności i wyższej wydajności modeli uczących się z danych multimodalnych.
Badania
arXiv CS.LG