Badacze odkryli poważną vulnerabilność w modelach strażniczych (guard models) używanych do zabezpieczania agentów AI. Podczas fine-tuningu modeli bezpieczeństwa dochodzi do zapaści ich geometrii ochronnej, co czyni je podatnymi na ataki i obejścia. To ważne odkrycie pokazuje, że tradycyjne metody szkolenia mogą nieumyślnie osłabiać bezpieczeństwo systemów AI, co ma znaczące implikacje dla wdrażania agentic AI w rzeczywistych aplikacjach.
Badania
arXiv CS.LG