Badacze opracowali nową metodę do szacowania informacji wzajemnej (mutual information) między parami elementów w maskowanych modelach sekwencji dyskretnych, takich jak BERT. Propozycja wykorzystuje podejście neuronowe do efektywnego obliczania tej miary, która jest kluczowa dla zrozumienia, jak model uczą się reprezentacji. Wynik ma znaczenie dla interpretacji i debugowania dużych modeli języka oraz dla badań nad strukturą uczenia się w sieciach neuronowych.
Badania
arXiv CS.LG