Training von KI-Systemen: Chancen und rechtliche Grenzen

Was passiert, wenn Anbieter von KI-Tools die eingegebenen Daten nicht nur verarbeiten, sondern auch zur Weiterentwicklung ihrer KI-Systeme nutzen? In vielen Fällen geht das über den ursprünglichen Zweck der Datenerhebung hinaus – und wirft damit rechtliche Fragen auf. Ein kurzer Überblick über Technik, rechtliche Verantwortung und aktuelle Praxis. Der Trainingsprozess: Features, Tuning und Evaluation Künstliche […]

Apr 17, 2025 - 16:57

Training von KI-Systemen: Chancen und rechtliche Grenzen

Was passiert, wenn Anbieter von KI-Tools die eingegebenen Daten nicht nur verarbeiten, sondern auch zur Weiterentwicklung ihrer KI-Systeme nutzen? In vielen Fällen geht das über den ursprünglichen Zweck der Datenerhebung hinaus – und wirft damit rechtliche Fragen auf. Ein kurzer Überblick über Technik, rechtliche Verantwortung und aktuelle Praxis.

Der Trainingsprozess: Features, Tuning und Evaluation

Künstliche Intelligenz basiert nicht auf Magie, sondern auf einem strukturierten Lernprozess, bei dem große Mengen an Daten, statistische Modelle und gezielte Optimierung eine zentrale Rolle spielen. Am Anfang steht ein umfangreicher Datensatz, aus dem die KI sogenannte „Features“ – also charakteristische Merkmale – extrahiert. In der Bilderkennung können das etwa Kanten, Formen oder Farben sein; bei Texten geht es um Wortmuster oder Bedeutungszusammenhänge.

Da nicht alle Zielgrößen direkt messbar sind, werden häufig Proxies eingesetzt – also stellvertretende Metriken. Ein Beispiel: Statt „Zufriedenheit“ direkt zu messen, nutzt man etwa die Klickrate als Annäherung. Proxies helfen dabei, weiche Ziele in messbare Optimierungsaufgaben zu übersetzen.

Das eigentliche Training erfolgt iterativ: Die KI trifft Vorhersagen, vergleicht sie mit der Realität, berechnet Fehler und passt ihre Parameter schrittweise an. Auf diese Weise entstehen nach und nach Modelle, die Muster zuverlässig erkennen.

In vielen Fällen wird ein bereits vortrainiertes Modell anschließend durch „Finetuning“ auf eine spezifische Aufgabe oder Datenbasis angepasst.

Wer ist verantwortlich für das Training – und was ist rechtlich erlaubt?

In der Praxis stellt sich häufig die Frage: Wer trägt eigentlich die Verantwortung, wenn KI-Systeme trainiert werden – insbesondere mit personenbezogenen Daten?

Ein häufiger Irrtum: Der Nutzer der Software sei in der Regel verantwortlich.

Doch das stimmt in vielen Fällen nicht. Wenn ein Softwareanbieter das Training durchführt und über Zweck und Mittel der Datenverarbeitung entscheidet, dann ist er allein verantwortlich – nicht derjenige, der das System lediglich einsetzt.

Die rechtliche Krux: Keine gültige Rechtsgrundlage für Trainingszwecke

Diese rechtliche Zuordnung hat weitreichende Konsequenzen: Denn für die Übermittlung personenbezogener Daten an einen Dritten (also den Anbieter) zum Zweck des KI-Trainings lässt sich aktuell kaum eine tragfähige Rechtsgrundlage heranziehen. Weder eine Einwilligung nach Art. 6 Abs. 1 lit. a DSGVO noch das berechtigte Interesse nach Art. 6 Abs. 1 lit. f DSGVO ist hier ohne Weiteres anwendbar.

Einwilligungen sind oft problematisch, weil sie im Kontext von Beschäftigtenverhältnissen oder Kundenverträgen nicht freiwillig genug sind. Das berechtigte Interesse scheitert regelmäßig an der Abwägung – insbesondere, wenn die betroffene Person nicht mit der Weitergabe ihrer Daten an ein KI-System eines Drittanbieters rechnen muss.

Technische Schutzmaßnahmen: Wichtig, aber keine rechtliche Legitimation

Ein häufig vorgebrachtes Argument in der Praxis lautet, dass technische Schutzmaßnahmen doch ausreichen müssten, um datenschutzrechtliche Bedenken beim KI-Training zu entkräften. Zu den gängigen Maßnahmen zählen insbesondere die Mandantentrennung, bei der die Daten verschiedener Kunden logisch voneinander getrennt verarbeitet werden, sowie die sogenannte Tenant-Trennung auf Infrastrukturebene, die zusätzlich eine physische oder systemseitige Isolierung sicherstellen soll. Auch Pseudonymisierung – also das Ersetzen identifizierender Merkmale durch Kennziffern oder Platzhalter – wird oft als Lösung präsentiert.

All diese Maßnahmen sind technisch sinnvoll und können das Datensicherheitsniveau erheblich erhöhen. Doch aus datenschutzrechtlicher Sicht gilt: Sie ersetzen keine gültige Rechtsgrundlage. Die DSGVO verlangt, dass jede Verarbeitung personenbezogener Daten auf einer der in Art. 6 genannten Rechtsgrundlagen beruht – unabhängig davon, wie gut die Daten technisch geschützt werden. Solche Schutzmaßnahmen können eine Verarbeitung sicherer machen, aber nicht rechtmäßiger.

Hinzu kommt, dass viele dieser Maßnahmen – insbesondere die Pseudonymisierung – keine echte Anonymisierung darstellen. Solange eine Re-Identifikation der betroffenen Personen zumindest theoretisch möglich bleibt, gelten die Daten weiterhin als personenbezogen. Damit unterliegen sie vollständig den Vorgaben der DSGVO – einschließlich der Pflicht zur Transparenz, der Betroffenenrechte und eben auch der Anforderung einer tragfähigen Rechtsgrundlage.

Was heißt das konkret für Unternehmen?

Wenn Sie in Ihrem Unternehmen KI-basierte Software nutzen, sollten Sie folgende Punkte dringend beachten:

KI-Systeme wählen, bei denen das Training deaktiviert werden kann.
Arbeitsanweisungen erlassen, die es untersagen, personenbezogene Daten in KI-Systeme einzugeben, deren Training nicht kontrolliert werden kann.
Vertragliche Regelungen prüfen und verhandeln: Wenn das KI-System Trainingsdaten sammelt, sollte explizit ausgeschlossen werden, dass personenbezogene Daten dafür verwendet werden dürfen.

Datenschutz ernst nehmen – und beim KI-Einsatz genau hinschauen

Das bedeutet natürlich nicht, dass damit alle KI-Tools auf alle Ewigkeit unbrauchbar wären. Ganz im Gegenteil: Viele Anbieter haben die Anforderungen der DSGVO und die Erwartungen von Unternehmen längst im Blick – und bieten deshalb regelmäßig spezielle Enterprise-Versionen an. In diesen Unternehmenspaketen ist das Training mit Kundendaten standardmäßig deaktiviert.

Einige Anbieter sichern darüber hinaus vertraglich zu, dass verarbeitete Daten nicht ohne ausdrückliche Zustimmung für Trainingszwecke verwendet werden. Oft wird auch garantiert, dass eingegebene Prompts und erzeugte Antworten nicht gespeichert, sondern nach Sitzungsende automatisch gelöscht werden.

Gefällt Ihnen der Beitrag?
Dann unterstützen Sie uns doch mit einer Empfehlung per:
TWITTER FACEBOOK E-MAIL XING
Oder schreiben Sie uns Ihre Meinung zum Beitrag:
HIER KOMMENTIEREN