Derzeit gibt es keine allgemein akzeptierte Methode, mit der Einzelpersonen bewirken können, dass ihre Daten aus einem Machine-Learning-Modell entfernt werden, sobald sie erst einmal zum Anlernen verwendet wurden.
Im Bereich künstliche Intelligenz und maschinelles Lernen werden Sprachlernmodelle, die derzeit einen enormen Popularitätsschub erleben, heiß diskutiert. Bei diesen Tools – das aktuell beliebteste ist wohl ChatGPT-3 – handelt es sich um Sprachmodelle, die konkrete Fragen beantworten und sogar selbst Programmiercode schreiben. Das Spektrum der Anwendungsfälle ist gewaltig. Sie werden beispielsweise für Chatbots, Übersetzungen und Textzusammenfassungen eingesetzt. Wie bei jeder Technologie gibt es jedoch auch potenzielle Nachteile und Bedenken.
Datenschutz und ChatGPT
Eines der Hauptprobleme bei diesen Modellen ist der Datenschutz: Betroffene können nur schwer feststellen, ob ihre Daten zum Trainieren eines Machine-Learning-Modells verwendet wurden. GPT-3 zum Beispiel ist ein umfangreiches Sprachmodell, das mit riesigen Datenmengen aus dem Internet trainiert wurde, darunter auch Content privater Webseiten und aus sozialen Netzwerken. Kritisch betrachtet wird hier die mögliche Nutzung personenbezogener Daten durch das Modell, ohne die Zustimmung der Betroffenen und dass es kaum Kontrolle darüber gibt, welche Daten zum Anlernen verwendet werden oder sogar gelöscht werden sollen.
Ein weiteres Problem betrifft das sogenannte „Recht auf Vergessenwerden“. Vor dem Hintergrund der zunehmend verbreiteten Nutzung von GPT-Modellen und anderen Machine-Learning-Modellen könnte der Wunsch entstehen, eigene Daten aus dem Modell zu löschen.
„Es macht die Leute wütend, dass ihre Daten ohne ihre Einwilligung verwendet werden“, so Sadia Afroz, KI-Forscherin bei Avast. „Es kommt mitunter vor, dass Benutzer ihre Daten löschen, nur um dann festzustellen, dass sie bereits in das Sprachmodell eingespeist und dort verewigt wurden. Es ist nicht klar, wie sie die Daten löschen können.“
Derzeit gibt es keine allgemein akzeptierte Methode, mit der Einzelpersonen bewirken können, dass ihre Daten aus einem Machine-Learning-Modell entfernt werden, sobald sie erst einmal zum Anlernen verwendet wurden. Einige Forscher und Unternehmen arbeiten an Methoden, die es ermöglichen sollen, bestimmte Datenpunkte oder Nutzerinformationen zu entfernen, damit sie „in Vergessenheit“ geraten. Allerdings befinden sich diese noch in einem frühen Entwicklungsstadium und es ist noch nicht klar, wie praktikabel oder effektiv sie sein werden. Darüber hinaus stößt man beim Entfernen von Daten aus Machine-Learning-Modellen auf technische Probleme. Wurden die Daten nämlich zum Anlernen verwendet und anschließend entfernt, verliert das Modell möglicherweise an Genauigkeit.
Ist ChatGPT legal?
Die Rechtmäßigkeit der Verwendung personenbezogener Daten zum Trainieren von Machine-Learning-Modellen wie GPT-3 variiert je nach den Gesetzen und Vorschriften des jeweiligen Landes oder der Region. In der Europäischen Union zum Beispiel regelt die Datenschutz-Grundverordnung (DSGVO) die Verwendung personenbezogener Daten. Demnach dürfen Daten nur für bestimmte, rechtmäßige Zwecke erhoben und verwendet werden.
„Bei der DSGVO geht es vor allem um die Zweckbindung“, so Afroz. „Daten dürfen nur für den Zweck verwendet werden, für den sie erhoben wurden. Für jede andere Nutzung muss eine Einwilligung eingeholt werden. Das steht im krassen Widerspruch zu Sprachmodellen: Diese Daten können für jeden beliebigen Zweck verwendet werden. Wie lassen sich die Einschränkungen der DSGVO also durchsetzen?“
Nach der DSGVO müssen Unternehmen die ausdrückliche Zustimmung der Betroffenen einholen, bevor sie deren personenbezogene Daten erfassen und verwenden. Es gibt eine Rechtsgrundlage für die Verarbeitung personenbezogener Daten zu wissenschaftlichen und historischen Forschungszwecken, aber der für die Verarbeitung Verantwortliche muss sich dabei an die Grundsätze und Rechte der DSGVO halten, z. B. an das Recht auf Auskunft, das Recht auf Berichtigung und Löschung, das Recht auf Widerspruch der Datenverarbeitung und an das Recht auf Datenübertragbarkeit. Demnach sind die Sprachlernmodelle nicht mit der DSGVO vereinbar, was in Zukunft ein enormes Wachstumshindernis darstellen könnte.
In den USA gibt es kein Bundesgesetz, das die Verwendung personenbezogener Daten zum Trainieren von Machine-Learning-Modellen im Speziellen regelt. Unternehmen sind jedoch grundsätzlich verpflichtet, Gesetze wie den Health Insurance Portability and Accountability Act (HIPAA) und den Children‘s Online Privacy Protection Act (COPPA) einzuhalten, wenn sie personenbezogene Daten von Personen in bestimmten sensiblen Kategorien erfassen und verwenden. Und in Kalifornien, wo die meisten großen Technologieunternehmen ansässig sind, gilt der California Consumer Privacy Act (CCPA), der ähnliche Datenschutzanforderungen wie die DSGVO enthält.
Bei all dem darf man nicht vergessen, dass die Entwicklung von KI-Modellen wie GPT-3 ein Bereich ist, der sich ständig weiterentwickelt. Daher steht zu erwarten, dass sich die Gesetze und Vorschriften zur Verwendung personenbezogener Daten im KI-Bereich mit der Zeit ändern werden. Darum ist es wichtig, sich über die neuesten rechtlichen Entwicklungen in diesem Bereich auf dem Laufenden zu halten.
Sind die Antworten von ChatGPT zutreffend?
Eine weitere große Sorge im Zusammenhang mit GPT-Modellen sind Fehlinformationen sowie fehlende Überprüfungsmöglichkeiten. Es ist weithin bekannt, dass viele Sprachlern-KIs Informationen zwar selbstbewusst, aber ungenau präsentieren. Der fehlende Faktencheck könnte die Verbreitung von Falschinformationen fördern, was besonders in sensiblen Bereichen wie der Nachrichtenbranche und in der Politik gefährlich ist. Google plant beispielsweise den Einsatz großer Sprachlernmodelle zum Nutzen seiner Kunden, allerdings ist noch nicht klar, wie man die daraus resultierenden Fakten überprüfen soll.
Große Sprachlernmodelle haben das Potenzial, die Art und Weise, wie wir mit Technologie interagieren und bestimmte Aufgaben automatisieren, zu revolutionieren. Doch man muss sich auch der möglichen Nachteile und Grauzonen bewusst sein. Mit der zunehmenden Verbreitung dieser Modelle ist es von entscheidender Bedeutung, Bedenken hinsichtlich des Datenschutzes auszuräumen und Lösungen für das „Recht auf Vergessenwerden“ zu finden.