KI testet Algorithmus zum verlässlichen Unterbinden von „KI-Jailbreaks“

Anthropic hat ein neues Sicherheitssystem für sein Sprachmodell Claude entwickelt, das sogenannte Jailbreaks erschweren soll. Mit Constitutional Classifiers filtert das System problematische Anfragen, um zu verhindern, dass Claude unerwünschte Inhalte generiert. In 95 Prozent der getesteten Fälle zeigte sich das System erfolgreich – bietet bei der Implementierung aber auch Nachteile.

Apr 15, 2025 - 12:53

KI testet Algorithmus zum verlässlichen Unterbinden von „KI-Jailbreaks“

Anthropic hat ein neues Sicherheitssystem für sein Sprachmodell Claude entwickelt, das sogenannte Jailbreaks erschweren soll. Mit Constitutional Classifiers filtert das System problematische Anfragen, um zu verhindern, dass Claude unerwünschte Inhalte generiert. In 95 Prozent der getesteten Fälle zeigte sich das System erfolgreich – bietet bei der Implementierung aber auch Nachteile.