Apple Intelligence: Apple erläutert den Datenschutz seiner KI-Funktionen
Bereits bei der Ankündigung von Apple Intelligence im vergangenen Jahr machte das Unternehmen aus Cupertino deutlich, dass man sich die Themen Datenschutz und Privatsphäre bei seinen KI-Funktionen auf die Fahne geschrieben hat. Nun geht der Hersteller noch einmal näher auf die Materie ein und erläutert dabei seinen Ansatz synthetischer Daten und differenzieller Privatsphäre. So arbeitet […]

Bereits bei der Ankündigung von Apple Intelligence im vergangenen Jahr machte das Unternehmen aus Cupertino deutlich, dass man sich die Themen Datenschutz und Privatsphäre bei seinen KI-Funktionen auf die Fahne geschrieben hat. Nun geht der Hersteller noch einmal näher auf die Materie ein und erläutert dabei seinen Ansatz synthetischer Daten und differenzieller Privatsphäre.
So arbeitet Apple an der Verbesserung der Apple Intelligence
Apple legt beim Thema künstlicher Intelligenz einen großen Fokus auf die Privatsphäre seiner Nutzer. Dies stellt eine Herausforderung dar, ausreichend Daten zu sammeln, um große Sprachmodelle, die Apple Intelligence- Funktionen antreiben und letztendlich Siri verbessern, zu trainieren.
Apple ist somit gezwungen, datenschutzkonforme Optionen für das KI-Training zu entwickeln. Nun erläutert der Hersteller in einem neuen Blogeintrag von Machine Learning Research, wie man dabei vorgeht. Die Lösung liegt in synthetischen Daten und differenzieller Privatsphäre.
Zunächst einmal benötigt Apple Nutzerdaten, um Zusammenfassungen, Schreibtools und andere „Apple Intelligence“-Funktionen zu verbessern. Allerdings möchte das Unternehmen keine Daten einzelner Nutzer erfassen. Aus diesem Grund hat Apple eine Methode entwickelt, um Nutzerverhalten mithilfe differentieller Privatsphäre zu verstehen, die keiner einzelnen Person zugeordnet sind. Apple erstellt stattdessen synthetische Daten, die aggregierte Trends in realen Nutzerdaten repräsentieren, und nutzt die On-Device-Erkennung für Vergleiche. Dies verschafft dem Unternehmen Einblicke, ohne auf vertrauliche Informationen zugreifen zu müssen.
Das Ganze funktioniert unter anderem wie folgt: Apple generiert mehrere synthetische E-Mails zu Themen, die in Benutzer-E-Mails häufig vorkommen. Beispielsweise könnte es sich um eine Verabredung zum Tennisspielen um 19:00 Uhr handeln. Das Unternehmen erstellt aus diesen E-Mail sogenannte „Embeddings“ mit spezifischen Informationen zu Sprache, Thema und Länge. Apple kann mehrere Embeddings mit unterschiedlicher E-Mail-Länge und unterschiedlichen Informationen erstellen.
Diese Embeddings werden an eine kleine Anzahl von iPhone-Nutzern gesendet, die die Geräteanalyse aktiviert haben. Die iPhones, die die Embeddings empfangen, wählen eine Stichprobe tatsächlicher Benutzer-E-Mails aus und berechnen Embeddings für diese tatsächlichen E-Mails. Die von Apple erstellten synthetischen Embeddings werden mit der Einbettung der echten E-Mail verglichen, und das iPhone des Nutzers entscheidet, welche der synthetischen Embeddings der tatsächlichen Stichprobe am nächsten kommt.
Apple verwendet dann differentielle Privatsphöre, um zu ermitteln, welche der synthetischen Embeddings auf allen Geräten am häufigsten ausgewählt werden. So weiß das Unternehmen, wie E-Mails am häufigsten formuliert werden, ohne die E-Mails der Benutzer jemals zu sehen und ohne zu wissen, welche spezifischen Geräte welche Embeddings als die ähnlichsten ausgewählt haben.
Bei weiteren AI-Funktionen geht Apple ähnlich vor, so zum Beispiel bei den Emojis. Auch hier wird differenzielle Privatsphäre genutzt, um beliebte Eingabeaufforderungen und Eingabeaufforderungsmuster zu identifizieren, die zur Verbesserung der Bildgenerierungsfunktion genutzt werden können.
In jedem Fall nehmen nur Nutzer an den Tests teil, die sich für die Übermittlung von Geräteanalysedaten an Apple entschieden haben.