Anthropic blokuje niebezpieczne tematy w modelu Claude 3.5

Anthropic postanowiła wprowadzić znaczące ograniczenia w swoim frontier modelu Claude 3.5 dotyczące wrażliwych tematów. Model będzie teraz odmawiać odpowiadania na pytania związane z cyberbezpieczeństwem, biologią i chemią, szczególnie gdy mogą one potencjalnie prowadzić do stworzenia broni lub przeprowadzenia ataków.

Ta decyzja odzwierciedla rosnące obawy branży AI o bezpieczeństwo. Producenci modeli stawiają czoła presji, aby ich systemy nie były wykorzystywane do szkodliwych celów, jednocześnie zachowując praktyczną użyteczność. Restrykcje są realizowane poprzez fine-tuning oraz instrukcje systemowe, które ukierunkowują zachowanie modelu.

Restriktywne podejście Anthropica może stać się benchmarkiem dla branży, ale też wzbudza pytania o równowagę między bezpieczeństwem a otwartością. Inne firmy takie jak OpenAI również wdrażają podobne zabezpieczenia, jednak skalę i specyficzne zakresy ograniczeń robi się na różne sposoby. Długofalowo takie podejście może wpłynąć na konkurencję rynkową i standaryzację safety practices w branży AI.