+ All Categories
Home > Documents > Big Data, Machine Learning & Co – ist die DS-GVO die ... · PUBLIC Dr. Hüseyin Cavga, SAP Health...

Big Data, Machine Learning & Co – ist die DS-GVO die ... · PUBLIC Dr. Hüseyin Cavga, SAP Health...

Date post: 25-Aug-2019
Category:
Upload: trancong
View: 213 times
Download: 0 times
Share this document with a friend
30
PUBLIC Dr. Hüseyin Cavga, SAP Health April, 2019 Big Data, Machine Learning & Co – ist die DS-GVO die richtige Datenschutz-Regelung, um moderne Verarbeitungen konstruktiv zu umrahmen?
Transcript

PUBLIC

Dr. Hüseyin Cavga, SAP Health April, 2019

Big Data, Machine Learning & Co – ist die DS-GVO die richtige Datenschutz-Regelung, um moderne Verarbeitungen konstruktiv zu umrahmen?

2 PUBLIC © 2018 SAP SE or an SAP affiliate company. All rights reserved. ǀ

Einführung in die Thematik

Was sind personenbezogene Daten

Definition und Anwendungsbereiche von KI, Machine Learning, Big Data & Co

Was sind die datenschutzrechtliche Fragestellungen

Zusammenfassung/Lösungsansätze

Agenda

3 PUBLIC © 2018 SAP SE or an SAP affiliate company. All rights reserved. ǀ

The Intelligent Enterprise

4 PUBLIC © 2018 SAP SE or an SAP affiliate company. All rights reserved. ǀ

Intelligente Unternehmen befähigen ihre Mitarbeiter sich auf höherwertige Aufgaben zu konzentrieren.

5 PUBLIC © 2018 SAP SE or an SAP affiliate company. All rights reserved. ǀ

Definition personenbezogener Daten

EU-Datenschutz-Grundverordnung (DSGVO) Personenbezogene Daten" sind alle Informationen über eine identifizierte oder identifizierbare natürliche Person ("betroffene Person"); eine identifizierbare natürliche Person ist eine Person, die direkt oder indirekt identifiziert werden kann, insbesondere durch Bezugnahme auf einen Identifikator wie einen Namen, eine Identifikationsnummer, Standortdaten, einen Online-Identifikator oder auf einen oder mehrere Faktoren, die spezifisch für die physische, physiologische, genetische, mentale, wirtschaftliche, kulturelle oder soziale Identität dieser natürlichen Person sind

6 PUBLIC © 2018 SAP SE or an SAP affiliate company. All rights reserved. ǀ

It could also be:

• Business e-mail address

• Business telephone number

• Business e-mail content

• Call content using VOIP (recorded or not)

• Favorite golf course

• Number of children

• Online identifier (in a cookie or not)

Personal Data includes:

• Date of birth

• Social security number

• Driver’s license

• Passport number

• IP Address

• D020396 (Employee number)

What are Personal Data?

7 PUBLIC © 2018 SAP SE or an SAP affiliate company. All rights reserved. ǀ

Die DSGVO und wir: Vor- und Nachteile

Source: Rainer Sternecker, Die DSGVO mit SAS

8 PUBLIC © 2018 SAP SE or an SAP affiliate company. All rights reserved. ǀ

Unter dem Oberbegriff der KI finden sich alle im Zusammenhang mit der Erbringung von Intelligenzleistungen verwendeten Technologien wieder

Starke KI • Ziel der starken KI ist es, eine Intelligenz zu erschaffen, die der des Menschen ebenbürtig ist.

Schwache KI • Schwache, anwendungsorientierte KI gemeint, die den Menschen intelligent beim Erreichen seiner Ziele

zu unterstutzen. • Machine Learning, • Natural Language Processing (NLP) • Deep Learning, • Neuronale Netze

Was ist eigentlich der Unterschied zwischen KI, Machine Learning, Deep Learning und Natural Language Processing?

9 PUBLIC © 2018 SAP SE or an SAP affiliate company. All rights reserved. ǀ

„Big Data [...] bezeichnet Datenmengen, die zu groß oder zu komplex sind oder sich zu schnell ändern, um sie mit händischen und klassischen Methoden der Datenverarbeitung auszuwerten. “ –

• Große Datenmengen speichern/verarbeiten: Terrabyte

• Schnelle Antwortzeiten

• Flexible Skalierung

• Fehlertoleranz

• Vorausplanen der benötigten Ressourcen

Was bedeutet BIG DATA?

10 PUBLIC © 2018 SAP SE or an SAP affiliate company. All rights reserved. ǀ

The Four V's of Big Data

11 PUBLIC © 2018 SAP SE or an SAP affiliate company. All rights reserved. ǀ

Überwachte Machine Learning Systeme (Supervised Machine Learning) lernen Muster aus Trainingsdaten, um aus Eingaben nützliche Informationen, d.h. Vorhersagen über die Ergebnisse, abzuleiten, die sie noch nie zuvor gesehen haben.

Was ist überwachte Machine Learning?

12 PUBLIC © 2018 SAP SE or an SAP affiliate company. All rights reserved. ǀ

How Machine Learning Works

Model

13 PUBLIC © 2018 SAP SE or an SAP affiliate company. All rights reserved. ǀ

Verbesserung der Transplantationsversorgung (MACCS)

In Berlin beschloss die Charité, Europas größte Universitätsklinik, eine bessere Zusammenarbeit mit Patienten, die sich einer Nierentransplantation unterzogen hatten.

Diabetes vorbeugen mit App von SAP (Accu Chek View)

Typ-2-Diabetes beeinflusst die Lebensqualität der Patienten und das finanzielle Rücklagen des Gesundheitssystems. Da allein in den USA Millionen Erwachsene von der Entwicklung der chronischen Erkrankung bedroht sind, kooperierte SAP mit der Roche Diabetes Care GmbH und setzte neue Technologie ein, um die Prävention zu verstärken.

Das Gesundheitswesen kann ohne ein intelligentes Unternehmen keine „value-based care“ erreichen.

14 PUBLIC © 2018 SAP SE or an SAP affiliate company. All rights reserved. ǀ

Anwendungsfelder von Machine Learning

• Gute Software ist Menschen in der Mustererkennung von Hautkrebs oft überlegen.

• Melanome haben gute Heilungschancen, wenn sie früh erkannt werden und keine Metastasen in Lymphknoten oder anderswo im Körper gebildet haben. Danach allerdings stehen die Heilungschancen schlecht.

• Dermatologie ist neben der Radiologie und Pathologie zu einem der Kernanwendungsfelder von maschinellem Lernen in der Medizin werden.

15 PUBLIC © 2018 SAP SE or an SAP affiliate company. All rights reserved. ǀ

Analysis: It’s surprisingly easy to identify individuals from credit-card metadata.

“A recent MIT study looked at records of three months of credit card transactions for 1.1 million people and claimed that, using the dates and locations of four purchases, it was possible to identify 90 percent of the people in the dataset.”

“It may not be possible to establish with absolute certainty that an individual cannot be identified from a particular dataset[…] The issue is not about eliminating the risk of re-identification altogether, but whether it can be mitigated so it is no longer significant.”

Big Data und Co. versus Datenschutz

16 PUBLIC © 2018 SAP SE or an SAP affiliate company. All rights reserved. ǀ

• EU GDPR Fragen im Zusammenhang mit maschinellem Lernen und Big Data • Automatisierte Entscheidungsfindung und Profiling • Widerspruchsrecht • Informationsrecht • Recht auf Einflussnahme durch den Menschen • Aber was passiert, wenn Modelle des maschinellen Lernens als personenbezogene Daten

betrachtet werden?

Themenfelder mit Bauchweh und Handlungs-/Klärungsbedarf für die betroffene Person

17 PUBLIC © 2018 SAP SE or an SAP affiliate company. All rights reserved. ǀ

Themenfelder mit Bauchweh und Handlungs-/Klärungsbedarf für den Verantwortlichen

Information

Erasure

Correction Notification

Restriction of

processing

Object to Automated

decision making

Portability

18 PUBLIC © 2018 SAP SE or an SAP affiliate company. All rights reserved. ǀ

Transparency Data subjects have the right to be informed about the purposes and means of the data processing.

Access rights Data subjects have the right of access to their data. Models are usually trained on the data concerning multiple individuals. How to provide access only to the

data concerning a single individual is difficult.

Data Controller Obligations – Information rights

Information

19 PUBLIC © 2018 SAP SE or an SAP affiliate company. All rights reserved. ǀ

Portability Data subjects have the right to have a copy of their data in a machine readable format. If the machine learning models are personal data, what does this mean?

– Can the whole model be given as a single digital object to the data subject? – Can the data controller be sure to extract only data for that single individual? – Would the user have the right to to have the same predictions on a similar service if he wants to?

Data Controller Obligations – Portability rights

Portability

20 PUBLIC © 2018 SAP SE or an SAP affiliate company. All rights reserved. ǀ

Restriction of processing In some cases individuals have the right to object to processing

– For instance when the legal ground is legitimate interests of the data controller of public interest (largely public sector processing)

– Or restriction until accuracy of the data is ascertained and rectified Would the right to object block querying the model concerning this individual, or all of them?

– Confusing, as models are themselves to be considered personal data. What about the model accuracy?

– Does rectifying the personal data used in training and retraining the model actually give a different prediction for that specific person?

Data Controller Obligations – Restriction of processing

Erasure

21 PUBLIC © 2018 SAP SE or an SAP affiliate company. All rights reserved. ǀ

Erasure Storage limitation principle and right to erasure In case of data processing based on consent, consent can be withdrawn. The simple way to comply with this is to retrain the machine learning model on training data where this

specific data subject is no longer present – This can be expensive – This is perhaps not possible, in case the training data is no longer available Removing the individual patterns from the model concerning a single individual is not straightforward Blacklisting the possible outputs related to a given individual could be a way out, but this is not erasure. It is

at least debatable if compliance would be achieved in this way. Make the model “forget” data points – strong requirement on maintaining “data lineage”

– Cao Y, Yang J. 2015 Towards making systems forget with machine unlearning. In Proc. of the 2015 IEEE Symp. on Security and Privacy (SP), San Jose, CA, 18–20 May 2015, pp. 463–480. New York, NY: IEEE.

Data Controller Obligations – Erasure

Erasure

22 PUBLIC © 2018 SAP SE or an SAP affiliate company. All rights reserved. ǀ

Big Data = Profiling in der DSGVO (Art. 4 Nr. 4 DSGVO)

BIG DATA und DS-GVO

Das Profiling [ist] jede Art der automatisierten Verarbeitung personenbezogener Daten, die darin besteht, dass diese personenbezogenen Daten verwendet werden, um bestimmte persönliche Aspekte, die sich auf eine natürliche Person beziehen, zu bewerten, insbesondere um Aspekte bezüglich Arbeitsleistung, wirtschaftlicher Lage, Gesundheit, persönlicher Vorlieben, Interessen, Zuverlässigkeit, Verhalten, Aufenthaltsort oder Ortswechsel dieser natürlichen Person zu analysieren oder vorherzusagen.

Artikel 22 – Automatisierte Entscheidung im Einzelfall einschließlich Profiling „Die betroffene Person hat das Recht, nicht einer ausschließlich auf einer automatisierten Verarbeitung – einschließlich Profiling – beruhenden Entscheidung unterworfen zu werden, die ihr gegenüber rechtliche Wirkung entfaltet oder sie in ähnlicher Weise erheblich beeinträchtigt.“

23 PUBLIC © 2018 SAP SE or an SAP affiliate company. All rights reserved. ǀ

Der Datenschutz wird sich im Hinblick auf Machine Learning, „Big Data“ und co. aus deutscher Sicht kaum verändern: Es bleibt kompliziert.

Die Analysen mit diesen neuen Verarbeitungstechniken bleiben also auch unter der DSGVO möglich, wenn die Daten rechtmäßig verarbeitet wurden und die Analyse keine automatisierte Einzelentscheidung oder sonstige erhebliche Beeinträchtigung zur (unmittelbaren) Folge hat.

Fazit

24 PUBLIC © 2018 SAP SE or an SAP affiliate company. All rights reserved. ǀ

Die SAP-Leitsätze für Künstliche Intelligenz

SAP Becomes First European Tech Company to Create Ethics Advisory Panel for Artificial Intelligence

• SAP hat seine Leitsätze für die künstliche Intelligenz (KI) veröffentlicht.

• Die Prinzipien wurden von einem speziell gebildeten Ethik-Lenkungsausschuss formuliert, dem neun leitende Führungskräfte aus dem gesamten Unternehmen angehören.

• Der Ausschuss konzentriert sich auf die internen Prozesse von SAP und die daraus resultierenden Produkte und stellt sicher, dass die Software nach ethischen Grundsätzen erstellt wird.

25 PUBLIC © 2018 SAP SE or an SAP affiliate company. All rights reserved. ǀ

Die SAP-Leitsätze für Künstliche Intelligenz

SAP Becomes First European Tech Company to Create Ethics Advisory Panel for Artificial Intelligence

26 PUBLIC © 2018 SAP SE or an SAP affiliate company. All rights reserved. ǀ

Die Anonymisierung ist ein irreversibler Prozess, bei dem die betroffenen Personen in einem Datensatz nicht mehr identifizierbar sind.

„Differential Privacy“ Methode bietet mathematisch belegbare Datenschutzgarantien und ist resistent gegen Angriffe.

• Genauigkeitsverlust von 2% bis 4% in unseren Experimenten • Frigerio, L., de Oliveira, A. S., Gomez, L., & Duverger, P. (2019). Differentially Private Generative Adversarial

Networks for Time Series, Continuous, and Discrete Open Data. arXiv preprint arXiv:1901.02477.

• Für einige Arten von Modellen des maschinellen Lernens gibt es Referenzimplementierungen. • Abadi, M., Chu, A., Goodfellow, I., McMahan, H. B., Mironov, I., Talwar, K., & Zhang, L. (2016, October).

Deep learning with differential privacy. In Proceedings of the 2016 ACM SIGSAC Conference on Computer and Communications Security (pp. 308-318). ACM.

Möglicher Lösungsansatz

27 PUBLIC © 2018 SAP SE or an SAP affiliate company. All rights reserved. ǀ

Künstliche Intelligenz trifft Datenschutz

Wer Daten mit Machine Learning verarbeitet, muss auf das Einhalten der Datenschutzanforderungen achten.

Künstliche Intelligenz bringt neue Risikotypen für den Datenschutz mit sich.

Bei hohem Risiko verlangt die DS-GVO (Art. 35 DSGVO) das Durchführen einer Datenschutz-Folgenabschätzung (DSFA).

Quelle: Martin Rost, Künstliche Intelligenz trifft Datenschutz. Heise-online, 2019

28 PUBLIC © 2018 SAP SE or an SAP affiliate company. All rights reserved. ǀ

die Herkunft der Daten,

die Form der Veredlung (Definieren, Sammeln, Selektieren, Umwandeln, Verifizieren) und Anreicherung der Rohdaten zu Modell- oder Trainingsdaten,

der Lernstil (Supervised Learning, Unsupervised Learning, Reinforcement Learning),

die verwendeten Lernmodelle (von Regressionsmodell bis KNN mit ML),

der potenzielle Einsatz einer speziellen KI-Komponente,

menschliche Beteiligung an den Entscheidungsfindungen innerhalb einer Verarbeitung,

die Institutionen, die die Komponenten des KI-Systems hergestellt und über die Auswahl, Konfiguration, Implementation und Betrieb der verwendeten KI-Technik, das Kuratieren der Daten, das Training und der Auswahl der Modelle entschieden haben,

ein Gutachten zur Vollständigkeit der Repräsentativität der von der KI beherrschten Wissensdomäne (die sich historisch ändert),

die Implementierung des KI-Algorithmus, insbesondere der regelbasierten Instruktionen und Entscheidungen,

der Einbau von Prüfankern, Prüfagenten, Selbstdokumentationsmechanismen.

Transparenz herstellen

29 PUBLIC © 2018 SAP SE or an SAP affiliate company. All rights reserved. ǀ

Weitere Lieteratur…

Thank you. Contact information:

Dr. Hüseyin Cavga Quality and Operation Expert Hü[email protected]


Recommended