Darf ich ChatGPT mit Kundendaten nutzen?

Nur unter klaren Bedingungen. Sie brauchen einen zulässigen Zweck, eine passende Rechtsgrundlage, eine belastbare Anbieter- und Transferprüfung sowie technische und organisatorische Schutzmaßnahmen. Für offene Standardkonten ohne vertragliche Absicherung ist die Eingabe identifizierbarer Kundendaten regelmäßig zu riskant.

Brauche ich eine DSFA für KI?

Nicht für jedes KI-Projekt, aber häufig bei risikoreichen Verarbeitungen mit Personenbezug. Eine Datenschutz-Folgenabschätzung ist vor allem dann naheliegend, wenn sensible Daten, Profiling, große Datenmengen oder erhebliche Auswirkungen auf Betroffene im Spiel sind.

Welche Rechtsgrundlage gilt für KI-Training mit Kundendaten?

In der Praxis kommen vor allem berechtigtes Interesse nach Art. 6 Abs. 1 lit. f DSGVO, Einwilligung nach Art. 6 Abs. 1 lit. a DSGVO oder bei Forschungszwecken die privilegierte Weiterverarbeitung nach Art. 5 Abs. 1 lit. b in Verbindung mit Art. 89 DSGVO in Betracht. Welche Grundlage trägt, hängt vom konkreten Zweck, den Erwartungen der Betroffenen und den Schutzmaßnahmen ab.

Müssen Trainingsdaten anonymisiert werden?

Nicht zwingend in jedem Fall, aber Anonymisierung ist der rechtlich sicherste Weg. Wo echte Anonymisierung nicht möglich ist, sollten Unternehmen mindestens Pseudonymisierung, Reduktion von Attributen, Zugriffsbeschränkung und Löschkonzepte einsetzen.

Was fordert der AI Act für KI-Trainingsdaten?

Für Hochrisiko-KI verlangt Art. 10 EU-VO 2024/1689 dokumentierte Daten-Governance. Trainings-, Validierungs- und Testdaten müssen relevant, hinreichend repräsentativ, möglichst fehlerfrei und mit Blick auf Verzerrungen geeignet sein. Außerdem sind Herkunft, Aufbereitung und bekannte Grenzen nachvollziehbar zu dokumentieren.

KI-Training mit personenbezogenen Daten: Was erlaubt?

Das Training von KI-Modellen mit personenbezogenen Daten ist nach DSGVO nur unter strikten Bedingungen erlaubt, und der AI Act ergänzt zusätzliche Anforderungen an Datenqualität und Governance. Für Unternehmen lautet die Kernfrage deshalb nicht, ob KI-Training mit Personenbezug pauschal verboten ist, sondern ob für den konkreten Trainingszweck eine tragfähige Rechtsgrundlage nach Art. 6 DSGVO besteht, ob die Weiterverarbeitung mit dem ursprünglichen Zweck vereinbar ist und ob technische Schutzmaßnahmen wie Anonymisierung oder Pseudonymisierung den Eingriff wirksam reduzieren.

Die oft gehörte Aussage "Trainingsdaten sind intern, also unproblematisch" ist rechtlich zu kurz. Sobald E-Mail-Verläufe, Supporttickets, Bewerbungsunterlagen, CRM-Daten, Logfiles oder Gesprächsprotokolle in Trainings-, Validierungs- oder Fine-Tuning-Prozesse einfließen, liegt regelmäßig eine Verarbeitung personenbezogener Daten vor. Genau an dieser Stelle greifen die Grundsätze aus Art. 5 DSGVO, die Zulässigkeitsprüfung aus Art. 6 DSGVO und bei sensiblen Daten zusätzlich Art. 9 DSGVO. Für das Zusammenspiel beider Regime ist der Überblick KI-Verordnung vs. DSGVO die wichtigste Anschlusslektüre; für die Datenschutz-Basis hilft außerdem DSGVO und AI Act — Brauche ich zwei Schulungen?, und für den organisatorischen Rahmen helfen ISO 42001 sowie der ISO-42001-Leitfaden.

Welche Rechtsgrundlagen kommen für KI-Training in Betracht?

KI-Training mit personenbezogenen Daten braucht zuerst eine belastbare Rechtsgrundlage nach Art. 6 DSGVO. Ohne diese Grundlage ist die Verarbeitung unzulässig, selbst wenn das Modell technisch innovativ oder wirtschaftlich attraktiv ist. Der AI Act schafft keine eigene Trainings-Erlaubnis und verdrängt die DSGVO nicht. Das stellt auch die europäische Linie klar: Datenschutzrecht gilt für KI-Modelle parallel weiter.

In der Unternehmenspraxis kommt häufig Art. 6 Abs. 1 lit. f DSGVO, also das berechtigte Interesse, in Betracht. Das kann etwa dann tragfähig sein, wenn ein Unternehmen ein internes Assistenzsystem mit bestehenden Supportfällen verbessern, Dokumentensuche optimieren oder Fehlklassifikationen in einem Fachprozess reduzieren will. Die Hürde bleibt aber hoch: Der Zweck muss legitim sein, die Verarbeitung muss erforderlich sein und die Interessenabwägung darf nicht zulasten der Betroffenen ausfallen. Die EDPB-Leitlinien zu Art. 6 Abs. 1 lit. f sowie Opinion 28/2024 zeigen genau diesen Dreischritt als Prüfpfad.

Einwilligung nach Art. 6 Abs. 1 lit. a DSGVO ist rechtlich möglich, aber operativ oft instabil. Sie setzt Freiwilligkeit, Informiertheit, Granularität und Widerrufbarkeit voraus. Für Beschäftigtendaten, Bewerbungsdaten oder laufende Kundenbeziehungen ist das häufig problematisch, weil Machtgefälle, faktischer Druck oder spätere Widerrufe das Projekt untergraben können. Ein KI-Trainingsprojekt, das nur funktioniert, solange niemand widerspricht, ist meist keine robuste Governance-Entscheidung.

Forschungskontexte können von der DSGVO begünstigt sein, aber nicht schrankenlos. Art. 5 Abs. 1 lit. b DSGVO behandelt eine Weiterverarbeitung zu wissenschaftlichen oder statistischen Zwecken unter den Garantien des Art. 89 Abs. 1 grundsätzlich als nicht unvereinbar mit den ursprünglichen Zwecken. Das ist kein Freifahrtschein für jede Produktentwicklung. Unternehmen müssen sauber dokumentieren, ob tatsächlich ein Forschungszweck vorliegt, welche Schutzmaßnahmen greifen und warum der Einsatz nicht bloß als Etikett für kommerzielles Modelltraining dient.

Besonders wichtig ist eine zusätzliche Warnung für besondere Kategorien personenbezogener Daten. Gesundheitsdaten, biometrische Daten, politische Meinungen oder Gewerkschaftszugehörigkeit dürfen nicht allein auf Basis von Art. 6 DSGVO trainiert werden. Hier braucht es zusätzlich eine Ausnahme nach Art. 9 DSGVO. Wer Trainingsdaten aus HR, Medizin, Versicherung oder öffentlicher Verwaltung verarbeitet, sollte diesen Punkt nie ausblenden.

Zweckbindung entscheidet oft über die Zulässigkeit

Die zentrale Weichenstellung für KI-Training liegt häufig bei der Zweckbindung nach Art. 5 Abs. 1 lit. b DSGVO. Daten, die ursprünglich für Vertragserfüllung, Support, Personalverwaltung oder einen Bewerbungsprozess erhoben wurden, dürfen nicht automatisch für das Training eines neuen Modells weiterverwendet werden. Die juristisch entscheidende Frage lautet, ob die neue Nutzung mit dem ursprünglichen Zweck kompatibel ist oder ob eine dokumentationspflichtige Zweckänderung vorliegt.

Art. 6 Abs. 4 DSGVO gibt dafür den Bewertungsrahmen vor. Unternehmen müssen unter anderem den Zusammenhang zwischen ursprünglichem und neuem Zweck, den Kontext der Datenerhebung, die Art der Daten, mögliche Folgen für die Betroffenen und die vorgesehenen Schutzmaßnahmen prüfen. Genau deshalb ist "Wir nutzen nur vorhandene Daten" kein Argument, sondern nur der Startpunkt der Analyse.

Ein internes Beispiel macht den Unterschied deutlich: Wenn ein Unternehmen Supporttickets nutzt, um ein internes Suchsystem zu verbessern, kann eine kompatible Weiterverarbeitung eher vertretbar sein als bei der Nutzung derselben Daten für ein neues extern vermarktetes Modell. Sobald der neue Zweck weiter von der ursprünglichen Erwartung der Betroffenen entfernt ist, steigt das Risiko, dass berechtigtes Interesse nicht mehr trägt oder neue Transparenz- und Einwilligungsanforderungen nötig werden. Eine saubere Einordnung von Governance- und Datenschutzrollen finden Sie auch im Beitrag DSGVO und AI Act — Brauche ich zwei Schulungen?.

Für Forschungs- und Statistikzwecke bietet Art. 89 DSGVO Erleichterungen, aber nur unter geeigneten Garantien. Dazu gehören insbesondere Datenminimierung, Pseudonymisierung, Zugriffsbeschränkungen und organisatorische Kontrollen. Wer interne Produktverbesserung, Forschung und spätere Kommerzialisierung vermischt, sollte die Zweckkette ausdrücklich dokumentieren. Ohne diese Dokumentation entsteht später fast immer Streit über die Reichweite der ursprünglichen Rechtsgrundlage.

Datenminimierung ist beim Modelltraining keine Kür

Art. 5 Abs. 1 lit. c DSGVO verlangt, dass personenbezogene Daten dem Zweck angemessen, erheblich sowie auf das notwendige Maß beschränkt sind. Genau dieser Grundsatz kollidiert in vielen KI-Projekten mit dem Reflex, lieber "mehr Daten als zu wenig" zu sammeln. Für Compliance ist aber das Gegenteil richtig: Je breiter und identifizierbarer der Datensatz, desto höher die Anforderungen an Rechtfertigung, Sicherheit, Transparenz und Betroffenenrechte.

Die rechtlich sicherste Option ist echte Anonymisierung. Wenn eine Re-Identifizierung auch mit vertretbarem Aufwand ausgeschlossen ist, fällt der Datensatz nicht mehr unter die DSGVO. Unternehmen sollten hier allerdings präzise bleiben: Bloßes Entfernen von Namen oder Kundennummern genügt oft nicht. Freitext, seltene Kombinationen, Zeitstempel, Standortangaben oder Vertragsdetails können Personen weiterhin identifizierbar machen.

Wo echte Anonymisierung nicht praktikabel ist, ist Pseudonymisierung der zweitbeste Standard, aber kein Ausstieg aus dem Datenschutzrecht. Pseudonymisierte Trainingsdaten bleiben personenbezogene Daten. Sie reduzieren jedoch das Risiko in der Interessenabwägung, in der DSFA und bei der praktischen Betriebsführung. Sinnvoll ist meist ein Maßnahmenbündel: direkte Identifier entfernen, Freitext bereinigen, Felder generalisieren, Zugriff nur für wenige Rollen erlauben, Trainingsumgebungen trennen und Aufbewahrungsfristen definieren.

Synthetische Daten können eine wirksame Ergänzung sein, wenn sie auf rechtssichere Weise erzeugt und auf Re-Identifizierungsrisiken geprüft werden. Sie lösen das Problem aber nicht automatisch. Wenn das synthetische Set zu eng am Originalmaterial hängt oder sensible Muster reproduziert, bleibt das Risiko bestehen. Die operative Linie lautet daher: erst prüfen, ob der Zweck mit anonymisierten oder stark reduzierten Daten erreichbar ist, und erst danach echte personenbezogene Datensätze in Betracht ziehen.

Art. 10 AI Act: Was Hochrisiko-KI zusätzlich verlangt

Für Hochrisiko-KI reicht datenschutzrechtliche Zulässigkeit allein nicht aus. Art. 10 EU-VO 2024/1689 verlangt, dass Trainings-, Validierungs- und Testdaten geeigneten Daten-Governance- und Datenmanagementpraktiken unterliegen. Relevant sind dabei insbesondere Datenqualität, Relevanz, Repräsentativität, Vollständigkeit, Fehlerarmut und die Prüfung auf mögliche Verzerrungen. Der AI Act beantwortet also nicht die Rechtsgrundlage, sondern die Qualitäts- und Governance-Frage.

Das ist in der Praxis hochrelevant für Recruiting, Kreditprüfung, Beschäftigtensteuerung, Zugangskontrolle oder andere Fälle aus Hochrisiko-Kontexten. Ein Modell kann datenschutzrechtlich nicht schon deshalb zulässig sein, weil ein Unternehmen sich auf berechtigtes Interesse stützt. Wenn die Trainingsdaten systematisch verzerrt sind, schlecht dokumentiert wurden oder erkennbar bestimmte Gruppen benachteiligen, entsteht zusätzlich ein AI-Act-Problem. Wer diese Überschneidungen organisatorisch sauber aufbauen will, sollte die Rolle des Datenschutzes im Beitrag AI Act für Datenschutzbeauftragte mitdenken.

Für Hochrisiko-KI ist außerdem wichtig, dass Art. 10 nicht nur auf Rohdaten schaut. Unternehmen müssen auch Datengewinnung, Kennzeichnung, Bereinigung, Vorverarbeitung, Versionsstände und bekannte Grenzen nachvollziehbar dokumentieren. Genau an dieser Stelle treffen sich DSGVO und AI Act: Die DSGVO fragt nach Rechtmäßigkeit, Zweckbindung und Minimierung, der AI Act nach belastbarer Datengovernance. Beides zusammen verlangt ein kontrolliertes Datenprogramm statt improvisierter Modellpipelines.

DSK, Hambacher Erklärung und europäische Aufsichtslinie

Die deutsche Datenschutzkonferenz hat mit der Hambacher Erklärung schon früh sieben datenschutzrechtliche Anforderungen an KI formuliert. Auch wenn das Papier aus dem Jahr 2019 stammt, ist seine Grundlogik bis heute relevant: KI braucht Rechtmäßigkeit, Fairness, Transparenz, Datenminimierung, Integrität, Vertraulichkeit und überprüfbare Verantwortlichkeiten. Für aktuelle Projekte ist die Erklärung deshalb weniger ein historisches Dokument als ein früher Referenzrahmen für genau die Spannungen, die Unternehmen heute im Training mit Personendaten erleben.

Die europäische Aufsichtslinie ist inzwischen noch klarer geworden. Mit Opinion 28/2024 hat der EDPB bestätigt, dass die Datenschutzgrundsätze auch im Kontext von KI-Modellen voll gelten und dass die Prüfung nicht erst bei der Nutzung des Modells beginnt, sondern bereits bei Sammlung und Training der Daten. Gleichzeitig zeigt die europäische Diskussion, dass weder pauschale Verbote noch pauschale Freigaben tragfähig sind. Entscheidend bleibt immer die konkrete Verarbeitung mit ihrer Rechtsgrundlage, ihren Erwartungen der Betroffenen und ihren Schutzmaßnahmen.

Auch die Orientierung der Aufsichtsbehörden zu generativer KI geht in dieselbe Richtung: Unternehmen sollen Datenflüsse, Anbieterrollen, Zweckänderungen, Sicherheitsmaßnahmen und Löschkonzepte vorab klären. Wer KI-Projekte mit personenbezogenen Daten startet, ohne Datenschutz, IT-Sicherheit und Fachbereich gemeinsam einzubinden, wird diese Anforderungen später kaum noch sauber nachziehen können. Für die technische und organisatorische Governance jenseits der reinen Rechtsgrundlage ist ISO 42001 für Unternehmen der passende nächste Baustein.

Betroffenenrechte bleiben auch nach dem Training relevant

KI-Training mit personenbezogenen Daten löst nicht nur Zulässigkeitsfragen aus, sondern auch Betroffenenrechte. Art. 15 DSGVO gibt Betroffenen ein Auskunftsrecht, Art. 17 DSGVO ein Recht auf Löschung. In klassischen Datenbanken ist das vergleichsweise greifbar. In trainierten Modellen, Embedding-Speichern oder komplexen Datenpipelines wird die praktische Umsetzung deutlich schwieriger.

Schwieriger heißt aber nicht optional. Unternehmen müssen schon vor Projektstart entscheiden, wie sie Herkunft, Versionierung und Löschpfade dokumentieren. Ohne Data Lineage lässt sich später kaum beantworten, ob bestimmte Kundendaten in einem Fine-Tuning-Lauf, in einem Ranking-Modell oder nur in der Evaluierung verwendet wurden. Die EDPB-Diskussion zu KI-Modellen unterstreicht genau dieses Problem: Je schlechter die Datenherkunft und die Trennung von Trainingsstufen dokumentiert sind, desto schwerer wird es, Rechte wirksam umzusetzen.

Ein weiterer Grenzbereich ist die Frage, ob und wann ein trainiertes Modell selbst personenbezogene Daten "enthält". Das hängt stark von Architektur, Memorization-Risiken und konkreter Zugriffssituation ab. Unternehmen sollten daraus keine pauschalen Entwarnungen ableiten. Praktisch vernünftiger ist ein risikobasierter Ansatz: möglichst keine direkt identifizierbaren Daten in offene oder schwer kontrollierbare Trainingsläufe geben, Output auf Leckagen testen, Red-Teaming für personenbezogene Inhalte durchführen und Löschanfragen im Datenbestand priorisieren. Für angrenzende Fragen zu Hochrisiko-Anwendungen und Folgen für HR-Prozesse sind die Beiträge EU AI Act für HR-Abteilungen und AI Act Hochrisiko-KI nach Annex III relevant.

Praktischer Leitfaden für Unternehmen

Der sicherste operative Weg lautet: erst Daten reduzieren, dann Rechtsgrundlage prüfen, dann Governance dokumentieren. Unternehmen sollten nicht mit dem Modell beginnen, sondern mit dem Datensatz. Welche Felder sind für den Zweck wirklich nötig? Was kann anonymisiert, pseudonymisiert oder synthetisch ersetzt werden? Welche Rollen dürfen Rohdaten sehen? Gibt es besonders schützensame Daten nach Art. 9 DSGVO?

Danach folgt die Rechtsgrundlagen- und Zweckprüfung. Dokumentieren Sie den Trainingszweck, den ursprünglichen Erhebungszweck, die Kompatibilitätsanalyse, die gewählte Rechtsgrundlage und die Gründe gegen alternative Wege. Gerade bei berechtigtem Interesse sollte die Interessenabwägung nicht aus drei Standardzeilen bestehen, sondern die realen Erwartungen der Betroffenen, Schutzmaßnahmen und Restrisiken abbilden. Wer die Prüfarchitektur mit Datenschutz und KI-Recht gemeinsam aufbauen will, findet die Grundlogik auch in Artikel 95 EU AI Act.

Drittens braucht es eine DSFA-Prüfung. Eine Datenschutz-Folgenabschätzung ist besonders naheliegend, wenn große Datenmengen, Profiling, sensible Daten, Beschäftigtenbezug oder erhebliche Folgen für Betroffene im Raum stehen. In Hochrisiko-Konstellationen kommt daneben die AI-Act-Perspektive hinzu: Datengovernance, Bias-Tests, Dokumentation und menschliche Aufsicht. Für die Verzahnung von Datenschutz und AI Act bietet der Beitrag AI Act für Datenschutzbeauftragte den passenden Deep Dive.

Viertens sollten Unternehmen Bias und Repräsentativität testen, bevor ein Modell produktiv eingesetzt wird. Das ist nicht nur für Hochrisiko-KI sinnvoll. Auch bei internen Modellen können Verzerrungen zu diskriminierenden Vorschlägen, fehlerhaften Priorisierungen oder systematischen Fehlklassifikationen führen. Gerade wenn Trainingsdaten aus Vergangenheitssystemen stammen, werden historische Schieflagen sonst unbemerkt fortgeschrieben.

Fünftens gehört Sicherheit und Resilienz auf dieselbe Ebene wie Datenschutz. Wenn Trainingsdaten aus kritischen oder regulierten Umgebungen stammen, etwa aus KRITIS-nahen Infrastrukturen, Gesundheitsdiensten oder wesentlichen Einrichtungen, sind Zugangskontrollen, Logging, Lieferantenprüfung und Incident Response auch unter NIS2 relevant. Für die strategische Verzahnung beider Welten helfen der Überblick AI Act, NIS2 und DSGVO und der NIS2-Einstieg unter /nis2-schulung/.

Matrix: Welche Grundlage passt zu welchem Trainingsfall?

Trainingsfall	Datentyp	Mögliche Grundlage	Hauptbedingung	Typisches Risiko
Internes Qualitätsmodell auf bereinigten Supporttickets	gewöhnliche personenbezogene Daten, stark pseudonymisiert	Art. 6 Abs. 1 lit. f DSGVO	Kompatibler Zweck, dokumentierte Interessenabwägung, Schutzmaßnahmen	Re-Identifizierung über Freitext
Fine-Tuning mit Kundendaten für neues Produktfeature	Kundendaten mit Verhaltensbezug	häufig neue Prüfung nötig, teils Einwilligung oder neue Zweckkommunikation	Zweckänderung belastbar begründen oder neuen Erhebungsrahmen schaffen	Erwartungsbruch der Betroffenen
Wissenschaftliches oder statistisches Projekt mit Garantien	personenbezogene Daten, ggf. pseudonymisiert	Art. 5 Abs. 1 lit. b i. V. m. Art. 89 DSGVO	echter Forschungs- oder Statistikzweck, geeignete Garantien	Vermischung mit rein kommerzieller Nutzung
HR- oder Gesundheitsdaten im Training	besondere Kategorien personenbezogener Daten	Art. 6 DSGVO plus Ausnahme nach Art. 9 DSGVO	zusätzliche Rechtfertigung und sehr hohe Schutzmaßnahmen	hohes Diskriminierungs- und Sanktionsrisiko
Vollständig anonymisierte Trainingsdaten	keine personenbezogenen Daten mehr	DSGVO nicht anwendbar	Anonymisierung muss tatsächlich belastbar sein	Scheinsicherheit durch unvollständige Anonymisierung

Fazit

KI-Training mit personenbezogenen Daten ist möglich, aber nur dann vertretbar, wenn Rechtsgrundlage, Zweckbindung, Datenminimierung und Betroffenenrechte vor dem ersten Trainingslauf geklärt sind. Für Hochrisiko-KI verschärft Art. 10 EU-VO 2024/1689 die Anforderungen zusätzlich durch Datengovernance, Repräsentativität und Bias-Prüfung. Die pragmatische Reihenfolge lautet deshalb: Daten reduzieren, Rechtsgrundlage dokumentieren, DSFA prüfen, Bias testen und Governance revisionsfähig aufsetzen.

Wenn Sie diese Anforderungen nicht nur punktuell, sondern unternehmensweit sauber verankern möchten, ist unsere EU AI Act Schulung der direkte nächste Schritt. Sie verbindet Art. 4 KI-Kompetenz, Governance-Pflichten und praktische Umsetzungsfragen für Fachbereiche, Datenschutz und Management in einem Format, das sich direkt in Ihre Compliance-Struktur einfügt.

KI-Training mit personenbezogenen Daten — Was ist erlaubt?