+ All Categories
Home > Documents > Statistische Geheimhaltung – Der Schutz vertraulicher ... · PDF fileBayern in Zahlen...

Statistische Geheimhaltung – Der Schutz vertraulicher ... · PDF fileBayern in Zahlen...

Date post: 07-Feb-2018
Category:
Upload: duongtruc
View: 221 times
Download: 7 times
Share this document with a friend
8
Bayern in Zahlen 8|2015 482 Beiträge aus der Statistik Statistische Geheimhaltung – Der Schutz vertraulicher Daten in der amtlichen Statistik Teil 2: Herausforderungen und aktuelle Entwicklungen Im in Ausgabe 05/2015 der Monatszeitschrift „Bayern in Zahlen“ enthaltenen ersten Teil des Beitrags wurden die rechtlichen Grundlagen der statistischen Geheimhaltung vorgestellt und ein grundsätzlicher Überblick über die verschiedenen Verfahren, mit denen der Ge- heimhaltungspflicht nachgekommen werden kann, gegeben. Zudem wurde der Umgang mit Häufigkeitstabellen detaillierter vorgestellt. Als Fortsetzung hierzu widmet sich Teil 2 der Geheimhaltung von Wertetabellen. Darüber hinaus soll ein kurzer Ausblick auf aktuelle Ent- wicklungen und momentane sowie zukünftige Herausforderungen im Bereich der amtlichen Statistik, wie datenverändernde Geheimhaltungsverfahren, den Umgang mit entstehendem Informationsverlust oder die Veröffentlichung georeferenzierter Daten, gegeben werden. Dipl.-Soz. Patrick Rothe Geheimhaltung in Wertetabellen Insbesondere im Bereich der Wirtschaftsstatistiken sind Wertetabellen eine weit verbreitete Darstel- lungsform, die eine gegenüber Häufigkeitstabellen abweichende Prüfung von möglichen Enthüllungs- risiken erfordert. Sie dienen dazu, beispielsweise Umsätze, Steuerbeträge oder Einkommen und Ver- dienste in aggregierter Form darzustellen. Das größ- te Problem liegt hierbei im Vergleich zu Häufig- keitstabellen nicht so sehr in der Aufdeckung ex- akter Werte durch einen Außenstehenden – wobei diese natürlich ebenfalls verhindert werden muss –, sondern vielmehr darin, dass bereits die Ermittlung ungefährer Angaben, die dem echten Beitrag eines Auskunftgebenden vergleichsweise nahe kommen, ein Aufdeckungsrisiko darstellen kann. So könnte beispielsweise einem Mitbewerber schon die Ent- hüllung eines ungefähren Schätzwerts des Konkur- renten einen unzulässigen Vorteil verschaffen, oh- ne dass für diesen hierfür die Kenntnis des exakten Werts vonnöten wäre. Eine solche Gefahr ist besonders dann gegeben, wenn ein Merkmalsträger einen überproportio- nal großen Anteil zu einem aggregierten Wert bei- trägt und dieser Beitrag dadurch relativ nahe beim veröffentlichten Gesamtwert liegt. Dies könnte bei- spielweise der Fall sein, wenn in einem Wirtschafts- zweig nahezu alle Unternehmen sehr wenig, ein einziges Unternehmen jedoch den Großteil zur Ge- samtsumme der Umsätze beiträgt. Man spricht in diesem Fall vom Vorliegen eines Dominanzfalls. In einer solchen Konstellation ist es für jedes der Un- ternehmen möglich, eine Schätzung des Umsatzes des dominierenden Unternehmens vorzunehmen, indem der eigene Umsatz vom ausgewiesenen Ge- samtwert subtrahiert wird. Die beste Schätzung er- zielt dabei das Unternehmen mit dem zweitgrößten Umsatz. Zugleich wird die Schätzung umso genauer ausfallen, je geringer die Summe der Umsätze der verbleibenden Unternehmen ist. Um derartige Fall- konstellationen zu erkennen, werden in der amt- lichen Statistik sogenannte Dominanz- beziehungs- weise Konzentrationsregeln angewandt. Heutzutage kommt dabei vorzugsweise die p%-Regel zum Ein- satz. Die ebenfalls noch im Einsatz befindlichen (1, k)- und (2, k)-Regeln gelten als veraltet und sollten gemäß Beschluss der Leiter der Statistischen Ämter nicht mehr angewandt werden, weshalb auf diese im Folgenden nicht näher eingegangen wird. 1 Bei Anwendung der p%-Regel muss Folgendes gel- ten: Der betreffende Zellwert wird geheim gehal- ten, wenn die Differenz zwischen dem Zellwert X 1 Erläuterungen zur (1, k)- und (2, k)-Regel finden Interessierte u.a. in Hundepool et al. 2010 (S. 117 ff.).
Transcript
Page 1: Statistische Geheimhaltung – Der Schutz vertraulicher ... · PDF fileBayern in Zahlen 8|2015 484 Beiträge aus der Statistik flexibleGenerierung geheim gehaltener Ergebnisse in Echtzeit,

Bayern in Zahlen 8|2015

482 BeiträgeausderStatistik

StatistischeGeheimhaltung–DerSchutzvertraulicherDateninderamtlichenStatistikTeil2:HerausforderungenundaktuelleEntwicklungen

Im in Ausgabe 05/2015 der Monatszeitschrift „Bayern in Zahlen“ enthaltenen ersten Teil des Beitrags wurden die rechtlichen Grundlagen der statistischen Geheimhaltung vorgestellt und ein grundsätzlicher Überblick über die verschiedenen Verfahren, mit denen der Ge-heimhaltungspflicht nachgekommen werden kann, gegeben. Zudem wurde der Umgang mit Häufigkeitstabellen detaillierter vorgestellt. Als Fortsetzung hierzu widmet sich Teil 2 der Geheimhaltung von Wertetabellen. Darüber hinaus soll ein kurzer Ausblick auf aktuelle Ent-wicklungen und momentane sowie zukünftige Herausforderungen im Bereich der amtlichen Statistik, wie datenverändernde Geheimhaltungsverfahren, den Umgang mit entstehendem Informationsverlust oder die Veröffentlichung georeferenzierter Daten, gegeben werden.

Dipl.-Soz.PatrickRothe

Geheimhaltung in Wertetabellen

Insbesondere imBereichderWirtschaftsstatistiken

sind Wertetabellen eine weit verbreitete Darstel-

lungsform, die eine gegenüberHäufigkeitstabellen

abweichendePrüfung vonmöglichenEnthüllungs-

risiken erfordert. Sie dienen dazu, beispielsweise

Umsätze,SteuerbeträgeoderEinkommenundVer-

diensteinaggregierterFormdarzustellen.Dasgröß-

te Problem liegt hierbei im Vergleich zu Häufig-

keitstabellen nicht so sehr in der Aufdeckung ex-

akterWerte durch einenAußenstehenden –wobei

diesenatürlichebenfallsverhindertwerdenmuss–,

sondernvielmehrdarin,dassbereitsdieErmittlung

ungefährerAngaben,diedemechtenBeitrageines

Auskunftgebendenvergleichsweisenahekommen,

ein Aufdeckungsrisiko darstellen kann. So könnte

beispielsweise einem Mitbewerber schon die Ent-

hüllungeinesungefährenSchätzwertsdesKonkur-

renten einen unzulässigen Vorteil verschaffen, oh-

nedassfürdiesenhierfürdieKenntnisdesexakten

Wertsvonnötenwäre.

Eine solche Gefahr ist besonders dann gegeben,

wenn ein Merkmalsträger einen überproportio-

nal großenAnteil zu einemaggregiertenWert bei-

trägtunddieserBeitragdadurchrelativnahebeim

veröffentlichtenGesamtwert liegt.Dies könnte bei-

spielweisederFallsein,wennineinemWirtschafts-

zweig nahezu alle Unternehmen sehr wenig, ein

einzigesUnternehmenjedochdenGroßteilzurGe-

samtsumme der Umsätze beiträgt. Man spricht in

diesemFall vomVorliegeneinesDominanzfalls. In

einersolchenKonstellation istes für jedesderUn-

ternehmenmöglich,eineSchätzungdesUmsatzes

des dominierenden Unternehmens vorzunehmen,

indemdereigeneUmsatzvomausgewiesenenGe-

samtwertsubtrahiertwird.DiebesteSchätzunger-

zieltdabeidasUnternehmenmitdemzweitgrößten

Umsatz.ZugleichwirddieSchätzungumsogenauer

ausfallen, jegeringerdieSummederUmsätzeder

verbleibendenUnternehmen ist.UmderartigeFall-

konstellationen zu erkennen, werden in der amt-

lichenStatistiksogenannteDominanz-beziehungs-

weiseKonzentrationsregelnangewandt.Heutzutage

kommtdabeivorzugsweisediep%-RegelzumEin-

satz. Die ebenfalls noch im Einsatz befindlichen

(1, k)- und (2, k)-Regeln gelten als veraltet und

solltengemäßBeschlussderLeiterderStatistischen

Ämternichtmehrangewandtwerden,weshalbauf

dieseimFolgendennichtnähereingegangenwird.1

BeiAnwendungderp%-RegelmussFolgendesgel-

ten: Der betreffende Zellwert wird geheim gehal-

ten, wenn die Differenz zwischen dem Zellwert X

1Erläuterungenzur(1,k)-und(2,k)-RegelfindenInteressierteu.a.inHundepooletal.2010(S.117ff.).

Page 2: Statistische Geheimhaltung – Der Schutz vertraulicher ... · PDF fileBayern in Zahlen 8|2015 484 Beiträge aus der Statistik flexibleGenerierung geheim gehaltener Ergebnisse in Echtzeit,

BeiträgeausderStatistik 483

Bayern in Zahlen 8|2015

StatistischeGeheimhaltung–DerSchutzvertraulicherDateninderamtlichenStatistikTeil2:HerausforderungenundaktuelleEntwicklungen

unddemgrößtenundzweitgrößtenBeitragX1und

X2nichtmindestenspProzentvomgrößtenBeitrag

X1beträgt:

X–x2–x1<*x1

Andersausgedrückt:Diep%-Regelprüft,obdersich

ergebende Schätzfehler desjenigen Beitragenden

mit dem zweitgrößten Wert mindestens p Prozent

beträgt.SoferndiesderFall ist, kannderentspre-

chendeGesamtwert veröffentlichtwerden. Ist dem

jedoch nicht so, so müssen Geheimhaltungsmaß-

nahmendurchgeführtwerden.AlspositiverNeben-

effektderAnwendungderp%-Regel istzuvermer-

ken,dassdieseimplizitauchdieVorgabenderMin-

destfallzahlregel mit n=3 berücksichtigt, so dass

bei positiver Dominanzprüfung zugleich sicherge-

stellt ist,dassmindestensdreiunterschiedlicheEr-

hebungseinheitenzumGesamtwertbeitragen.Eine

darüber hinaus gehende Fallzahlprüfung ist somit

nicht nötig.DerParameter pmuss vonden jewei-

ligen Fachabteilungen statistikspezifisch festgelegt

werden und darf nicht veröffentlicht werden, um

hierdurchmöglicheRückschlüssezuvermeiden.

ImnachfolgendgeschildertenfiktivenBeispielsollin

einerWertetabelle die Summe der Umsätze inner-

halb einzelner Wirtschaftszweige abgebildet wer-

den.UmdasVorliegenvonDominanzfällenprüfen

zukönnen,istdarüberhinausdieKenntnisderent-

sprechenden Einzelangaben der zum jeweiligen

Wert beitragenden Unternehmen – im folgenden

BeispielA,BundCgenannt–notwendig:Unterneh-

menAweistgenausowieUnternehmenBeinenUm-

satzvon15000Euroaus;imFallvonUnternehmen

Cbeträgt er hingegen 200000Euro.Der entspre-

chendaggregierteGesamtwertfürdenWirtschafts-

zweigbeträgtfolglich230000Euro.

WennAnunversuchensollte,dengemeldetenUm-

satzvonCzuschätzen,würdeAhierzuseinenei-

genenBeitragvomGesamtumsatzabziehen.Aer-

hält dadurch in Abwesenheit weiteren Vorwissens

denbestmöglichenSchätzwertfürdenUmsatzvon

C. Je kleiner zudem der Beitrag von B zum Ge-

samtumsatzausfällt,destonäherbefindetsichder

SchätzwertamwahrenWertvonC.DurchdasVor-

handensein brancheninternenWissens kannAdie

Schätzung dabei gegebenenfalls noch weiter ver-

bessern.Umdementgegenzuwirken,sollindiesem

BeispielunterVerwendungderp%-Regelmitp=10

geprüftwerden,obimvorliegendenFalleineVeröf-

fentlichungdesGesamtumsatzesgefahrlosmöglich

ist,oderobdiesergeheimgehaltenwerdenmuss.

HierbeiergibtsichfolgendesBild:

230000–15000–200000<*200000

DergeforderteMindestabstandzumWertdesgröß-

tenBeitragendenCbeträgt20000Euroundüber-

steigt somit die tatsächliche Differenz von 15000

Euro.DieSchätzungvonA fürdenUmsatz vonC

beträgt215000Euroundfälltdamitzupräziseaus.

Somit liegt ein Dominanzfall vor; der Gesamtum-

satzimvorliegendenBeispielistgeheimhaltungsbe-

dürftigunddarfnichtausgewiesenwerden.Werden

ineinerTabelledieUmsätzemehrererWirtschafts-

zweigesamtSummendargestellt,müssendement-

sprechend,analogzumgeschildertenBeispielzum

Umgang mit Häufigkeitstabellen, Primär- und Se-

kundärsperrungen vorgenommen werden, um die

Rückrechenbarkeitzuverhindern.

Datenverändernde Geheimhaltungsverfahren

AngesichtseinerzunehmendenAnzahlneuerMög-

lichkeitenzurflexiblenAuswertungundDarstellung

statistischerDatenbestände–beispielsweisemithil-

feeinessogenanntenData-Warehouses–stößtdie

Umsetzung traditionell verwendeter informationsre-

duzierenderGeheimhaltungsverfahrenwiederZell-

sperrung zunehmend anGrenzen. Schließlichwar

diese ursprünglich als Instrument zur Bearbeitung

fixerTabellen,die ingedruckterFormveröffentlicht

wurden,konzipiertworden.FüreineflexibleKombi-

nationvonMerkmalenunddiedynamischeErstel-

lungvonAuswertungstabellenaußerhalbdesStan-

dardveröffentlichungsprogramms der Statistischen

Ämter, wie sie durchmoderne Auswertungsdaten-

bankenermöglichtwird, ist sie hingegenungeeig-

net.AlseinmöglicherAusweghierfürwirdderRück-

griff auf datenveränderndeVerfahren gesehen, die

entweder pre-tabular zur Erzeugung eines anony-

misiertenMikrodatenbestandsoderpost-tabularbei

der Veränderung der erzeugten Tabellen zumEin-

satzkommen.DieseAnsätzeversprecheneineLö-

sung von Problemen wie dem der tabellenüber-

greifenden Geheimhaltung und ermöglichen eine

p100

10100

Page 3: Statistische Geheimhaltung – Der Schutz vertraulicher ... · PDF fileBayern in Zahlen 8|2015 484 Beiträge aus der Statistik flexibleGenerierung geheim gehaltener Ergebnisse in Echtzeit,

Bayern in Zahlen 8|2015

484 BeiträgeausderStatistik

flexibleGenerierunggeheimgehaltenerErgebnisse

inEchtzeit,zugleicherfordernsieabereinUmden-

kenbeiAnwendernundNutzerninnerhalbundau-

ßerhalb der amtlichen Statistik. Eine der nachvoll-

ziehbarstenVerfahrensgruppen,diehierbeiinFrage

kommen,stellenRundungsverfahrendar,aufdieex-

emplarischfürdieseFormderGeheimhaltungnäher

eingegangenwerdensoll:

RundungsverfahrenkönnendabeifürsichdenVor-

teil verbuchen, dass sie – zumindest in den ein-

facheren Ausprägungen – leicht umsetzbar sowie

relativeinfachnachvollziehbarunddaherauchAu-

ßenstehenden gegenüber inhaltlich gut vermittel-

bar sind.Ganzbesondersgiltdas fürdiedetermi-

nistischeRundung,beiderdieWerteeinerTabelle

in Abhängigkeit von der gewählten Rundungsba-

sis–beispielsweise3,5oder10–auf-oderabge-

rundetwerden.DieUmsetzungeines solchenVer-

fahrensgestaltetsichaustechnischerSichteinfach,

allerdingsistdasbeiVerwendungeinerkleinenRun-

dungsbasis erreichbare Schutzniveau gering. Im

Gegenzug fällt bei der Wahl einer größeren Run-

dungsbasis zwar der Schutz der Angaben stärker

aus,dasichprinzipbedingtgrößereAbweichungen

gegenüber den Originalwerten ergeben, zugleich

kommtesdadurchaberzumAuftretengrößererVer-

zerrungen,diedeninhaltlichenGehaltderDatenbe-

einträchtigenkönnen.Besondersgiltdiesnatürlich

für vergleichsweise niedrigeWerte und Fallzahlen,

wohingegen die entstehenden Abweichungen bei

großenWertenoderHäufigkeiten tendenziellweni-

ger insGewicht fallen. Aus diesemGrundwerden

in der Regel die Innenfelder einer Tabelle separat

vondenRandfeldernbehandelt.Wärediesnichtder

Fall,sowürdensichdieAbweichungengegenüber

denEchtwertenaufaddierenundzugegebenenfalls

deutlichverzerrtenRandsummenführen.Durchdie

getrennteBehandlungwird demgegenüber sicher-

gestellt, dass alle Tabellenfelder – auchdie darge-

stelltenSummen–maximalumdenselbenWertvon

der Originalangabe abweichen. Hieraus ergibt sich

jedocheinweiteresProblem,dasdiemeistenRun-

dungsverfahrenmit sich bringen: Innerhalb der Ta-

belleistkeineAdditivitätmehrgegeben.Dasbedeu-

tet,dasssichdieInnenfeldernichtzwangsläufigzur

Randsummeaufaddierenlassen,sowiemanesnor-

malerweisevonTabellengewohntist.DieKonsistenz

istjedochüberalleTabellenhinweg,indeneneinbe-

arbeitetesTabellenfeldinErscheinungtritt,gegeben.

AlternativeVarianten,wiedaszufälligeRunden,bei

deminAbhängigkeitvoneinerZufallsentscheidung

ab- oder aufgerundet wird, können das Schutzni-

veau erhöhen, das andere genannte Problem je-

doch nicht lösen. EinenAusweghierfür bietet das

sogenanntekontrollierteRunden,beidemversucht

wird,diedurchRundungerzeugteTabelle imRah-

men eines aufwendigenVerfahrens so zu optimie-

ren, dass auchweiterhin eineweitgehendeAdditi-

vität gegeben ist. Gegen die Anwendung dieses

Verfahrens sprechen jedoch vor allem die große

Komplexität bei der programmiertechnischen Im-

plementierungsowiediedamiteinhergehendehohe

Rechenintensivität, die insbesondere die Bearbei-

tungsehrumfangreicherTabelleneinschränkt.

Darüberhinausexistierenweitere,gegenüberdem

Runden komplexere Verfahren, wie die stochas-

tische Zufallsüberlagerung – beispielsweise das

vom nationalen Statistikamt in Australien einge-

setzteABS-Verfahren –, diemit einemhöherener-

zielbarenSicherheitsniveaueinhergehen.Allediese

post-tabularen Geheimhaltungsverfahren beinhal-

ten jedochdenprinzipiellenNachteil,dass jenach

angewandtem Verfahren erstellte Ergebnistabellen

nichtadditiv,nichtkonsistentoderimschlechtesten

Fallwederadditivnochkonsistentsind.Auchfürdie

Anonymisierung von Mikrodaten existieren daten-

veränderndeVerfahren,wiePRAM(Hundepooletal.

Tab. 1 Beispiel für eine fiktive HäufigkeitstabelleBevölkerungnachAlterundGeschlecht

Weiblich Männlich Insgesamt

unter 14 ............. 3 3 614 bis 49 ............. 8 9 1750 bis 75 ............. 12 9 2175 oder älter ....... 4 1 5

Insgesamt 27 22 49

Weiblich Männlich Insgesamt

unter 14 ............. 3 3 614 bis 49 ............. 9 9 1850 bis 75 ............. 12 9 2175 oder älter ....... 3 0 6

Insgesamt 27 21 48

Alter in Jahren

Alter in Jahren

Tab. 2 Beispiel für die Geheimhaltung durch deterministische 3er-RundungBevölkerungnachAlterundGeschlecht

Weiblich Männlich Insgesamt

unter 14 ............. 3 3 614 bis 49 ............. 8 9 1750 bis 75 ............. 12 9 2175 oder älter ....... 4 1 5

Insgesamt 27 22 49

Weiblich Männlich Insgesamt

unter 14 ............. 3 3 614 bis 49 ............. 9 9 1850 bis 75 ............. 12 9 2175 oder älter ....... 3 0 6

Insgesamt 27 21 48

Alter in Jahren

Alter in Jahren

Page 4: Statistische Geheimhaltung – Der Schutz vertraulicher ... · PDF fileBayern in Zahlen 8|2015 484 Beiträge aus der Statistik flexibleGenerierung geheim gehaltener Ergebnisse in Echtzeit,

BeiträgeausderStatistik 485

Bayern in Zahlen 8|2015

2010:69ff.)oderSAFE(Höhne2003),aufdiehierje-

dochnichtnähereingegangenwerdensoll.

Wichtig ist, zu beachten, dass datenverändernde

Verfahren in der Regel grundsätzlich auf alle An-

gaben – egal ob diese als unterGeheimhaltungs-

aspektenkritischeinzustufensindodernicht–an-

gewandtwerden,wasdazuführt,dasseinGroßteil

derdargestelltenInformationengegenüberdenOri-

ginalwerten verändert sein kann. Eine gezielte, re-

gelbasiertePrüfungaufdasVorhandenseinvonAuf-

deckungsrisiken entfällt dabei. Je nach Verfahren

könnenaber,wieinTabelle2zusehenist,durchaus

auchgegenüberderOriginaltabelle (Tabelle1)un-

veränderteZellenindenVeröffentlichungenvorhan-

densein.AusSichtdesBetrachters ist jedochdie

Unsicherheit darüber, ob die dargestellte Angabe

tatsächlichderWirklichkeitentsprichtoderdochum

einenunbekanntenWertdavonabweicht, jederzeit

gegeben,undstelltsomitdenwesentlichenSchutz-

mechanismusdar.

Informationsverlust und Datenqualität

ZugleichstehtundfälltdieSinnhaftigkeiteinesjeden

Verfahrens mit den Einschränkungen, die dieses

für den Informationsgehalt und somit die Nutzbar-

keitderDatenmitsichbringt.DieAnwendungvon

Geheimhaltungsverfahren wirkt sich zwangsläu-

fig immer auf die Qualität und das Analysepoten-

tialderbetroffenenStatistikdatenaus:Durchgezielte

Eingriffe in die Daten – sei es nun durch informa-

tionsreduzierende oder datenverändernde Metho-

den –werden bewusst Veränderungen gegenüber

denOriginaldaten herbeigeführt, umdie Anonymi-

tätdergemachtenEinzelangabenzugewährleisten.

Dieser Eingriff in die Daten ist der zentrale Wirk-

mechanismus,mitdessenHilfedasZielderstatis-

tischen Geheimhaltung erreicht wird. Jede Abwei-

chung gegenüber den Originaldaten stellt jedoch

zugleichunweigerlicheinenVerlustanDatenqualität

dar.EinwichtigesZielmussesdemgemäßbeider

AnwendungvonGeheimhaltungsverfahrensein,die

Vertraulichkeit der Angaben einzelner Erhebungs-

einheitenzugarantieren,ohnedasshierfüreinun-

verhältnismäßig großer Informationsverlust in Kauf

genommen werden muss. In der Vergangenheit

spieltenAspektederDatenqualitätundderNutzbar-

keitderDatenbeiderAuseinandersetzungmitdem

Thema statistische Geheimhaltung jedoch oftmals

nur einenachgeordneteRolle. In jüngererZeit hat

diesbezüglicheinUmdenkenstattgefunden,dasun-

teranderemzurBeschäftigungmitgeeignetenMa-

ßen und Kennzahlen für den Informationsverlust,

den ein bestimmtes Anonymisierungs- oder Ge-

heimhaltungsverfahrenmit sichbringt, geführt hat.

WasdieErfassungdesInformationsverlustsangeht,

sowerdendiverseMöglichkeitendiskutiert,wiedie-

ser konkret gemessen werden kann (u.a. Hunde-

pooletal.2010:S.96 ff.;Rosemann2007).Diese

reichen von der Erfassung des Anteiles und der

Stärke der vorgenommenen Veränderungen oder

derUnterschiede,diesichbeiderDurchführungbe-

stimmterstatistischerAnalysenergeben,bishinzur

Berechnung von informationstheoretischen Entro-

piemaßen,wiebeispielsweisederHellingerDistanz,

oder der Möglichkeit eines Echtzeitvergleichs von

anonymisierten und nicht-anonymisierten Auswer-

tungsergebnissen innerhalb einesRemote-Access-

Systems(Höninger2012).

BeialldemstehtaußerFrage,dassdieEinhaltung

dergesetzlichenVerpflichtungzumSchutzvertrau-

licherAngabenimmerüberdieoberstePrioritätver-

fügenmuss. Aber genauso offensichtlich ist, dass

mitmaximalgeschütztenDaten,dienurnocheinen

minimalenInformationsgehaltaufweisen,nichtmehr

vielanzufangenist,weshalbesunerlässlichist,nach

einermöglichstoptimalenBalancezwischendiesen

beidenAnforderungenzusuchen.

Aktuelle Entwicklungen und kommende Heraus-

forderungen

Aktuelle und sich abzeichnende zukünftige Ent-

wicklungensorgendafür,dassessichbeidersta-

tistischenGeheimhaltungnichtumeinenstatischen

ThemenkomplexmiteinemfixenInstrumentariuman

anzuwendendenVerfahren handelt, sondern es ist

einepermanenteÜberprüfungundAnpassungder

genutztenMethodennotwendig.VorallemneueVer-

öffentlichungsformensindes,dieeineHerausforde-

rungfürdieSicherstellungderstatistischenGeheim-

haltungmitsichbringenkönnen,schließlichsollen

die sichbietendenPotentialegenutztwerden kön-

nen, ohne dabei jedoch den Schutz vertraulicher

Daten zu vernachlässigen. Bei all diesen Betrach-

tungen sollte beachtet werden, dass die grundle-

Page 5: Statistische Geheimhaltung – Der Schutz vertraulicher ... · PDF fileBayern in Zahlen 8|2015 484 Beiträge aus der Statistik flexibleGenerierung geheim gehaltener Ergebnisse in Echtzeit,

Bayern in Zahlen 8|2015

486 BeiträgeausderStatistik

genden gesetzlichen Regelungen zur statistischen

GeheimhaltungnochauseinerZeitvordembegin-

nendenSiegeszugdermodernenComputertechnik

stammen.PersonalComputerfristetendamalsnoch

ein Nischendasein; Laptops, Tablets oder Smart-

phonesexistiertenhöchstensinScience-Fiction-Fil-

menundauchdasInternetexistiertenurinFormsei-

ner frühesten Vorläufer. An die Art undWeise, auf

die IT innerhalbweniger JahreWirtschaft undGe-

sellschaftdurchdringenwürde,warzumdamaligen

Zeitpunktnochnichtzudenken.Dementsprechend

treffendieBestimmungenausdemvon1987stam-

mendenBundesstatistikgesetzaufeinegegenüber

dem Entstehungszeitpunkt stark veränderte Rah-

mensituation,wobeidiedamalsfestgelegtenGrund-

sätzeundZiele jedochnichtsvon ihrerBedeutung

verlorenhaben–sonderneher imGegenteilange-

sichtsderMöglichkeitendermodernenDatenverar-

beitung2nochzusätzlichanGewichtgewonnenha-

ben. Als Beispiele für Entwicklungen aus neuerer

Zeit soll imFolgendenexemplarischaufdieArbeit

mit georeferenzierten Statistikdaten sowie den Zu-

gang der empirischen Forschung zu statistischen

Mikrodateneingegangenwerden.

Geheimhaltung georeferenzierter Daten

ZueinerdermithininteressantestenEntwicklungen

zählt sicherlich die Veröffentlichung von mit Geo-

koordinaten angereicherten Daten durch die Sta-

tistischen Ämter. Durch die Verbindung von amt-

lichen Statistikdaten mit konkreten Raumbezügen

eröffnensichneueMöglichkeitenfürregionalisierte

Analysen,dienichtmehrandiebislangverfügbaren

Verwaltungsgliederungen (Gemeinden,Kreiseetc.)

gebundensind,undneueArtenderVisualisierung

statistischer Ergebnisse in Form von (interaktiven)

Kartendarstellungen möglich machen. Die Statis-

tischen Ämter selbst, die empirisch arbeitenden

Raumwissenschaften – vor allem die Geographie,

aber auch dieWirtschafts- undSozialwissenschaf-

ten–sowiedieneueFormdesdatenbasiertenJour-

nalismuswerdenzukünftiginvoraussichtlichimmer

stärkeremMaßeaufdieNutzungundPräsentation

von georeferenzierten Informationen zurückgrei-

fen. Aus diesen neuenDarstellungsoptionen erge-

ben sich jedoch zugleich neue Anforderungen an

die Praxis der statistischen Geheimhaltung; liefert

dieMöglichkeit einer kleinräumigen geografischen

Zuordnung doch zusätzliche, möglicherweise indi-

viduierende Informationen, die von einem potenti-

ellenDatenangreifergewinnbringendbeiderReiden-

tifikationeinzelnerMerkmalsträgereingesetztwerden

könnten.DieSicherstellungdesSchutzesderDaten,

dieoftmalszusätzlichparallelintraditionellerTabellen-

formverfügbarsind,ohnedassdieneuenMöglich-

keitendesgeoreferenziertenArbeitenszugleichwie-

derbeschnittenwerden,stelltdabeidaszentraleZiel

dar. Vor allem das Nebeneinander unterschiedlich

gegliederterDarstellungenmussberücksichtigtwer-

den,daeshierdurchDifferenzbildungenzurEntste-

hungvonAufdeckungsrisikenkommenkönnte.Um

dementgegenzuwirken,existierteineReihevonGe-

heimhaltungsmöglichkeiten(Höhne/Höninger2014):

DabeibietetsichinsbesonderedieVergröberungdes

verwendeten Rasters bei kartographischen Darstel-

lungenan–eineMaßnahme,dieaufTabellenbezo-

geneinerUmgestaltungdurchdieVergröberungvon

Kategorien entsprechenwürde. Statt aufGitterzellen

miteinerGrößevon1kmx1kmbeziehensichdie

ZuordnungendannbeispielsweiseaufBereichemitei-

nerGrößevon5kmx5km.AuchvariableRastergrö-

ßeninnerhalbein-undderselbenAbbildungsindaus

Geheimhaltungssichtdenkbar.AberauchdieMög-

lichkeit,analogzurZellsperrunginTabellenkritische

Rasterzellen schlichtweg zu unterdrücken und die

SperrungdurchdieUnterdrückungweitererZellen

sekundärabzusichern,stellteinegangbareAlterna-

tivedar.

Zugang der Wissenschaft zu Mikrodaten der amt-

lichen Statistik

EineweiterenachhaltigwirksameEntwicklungstellt

die stattgefundene Öffnung der amtlichen Statis-

tik für die Belange der empirisch orientierten,wis-

senschaftlichenForschungdar.Das in §16Abs.6

desBundesstatistikgesetzes (BStatG) festgeschrie-

bene „Wissenschaftsprivileg“ eröffnet den Statisti-

schen Ämtern die Möglichkeit, Angehörigen von

Hochschulen und anderen unabhängigen wissen-

schaftlichenForschungseinrichtungenfaktischano-

nymisierteEinzelangabenfürdieDurchführungvon

zeitlich begrenzten Forschungsprojekten bereitzu-

stellen.BesondersdiemodernenSozial-undWirt-

schaftswissenschaftensindfürihreAnalyseninho-

hem Maße auf hochwertige Sekundärdaten mit

möglichst vielen Detailinformationen angewiesen.

2BereitsinderBegründungdesVolkszählungsurteilsvon1983wurdediesalseinmaßgeblicherGrundfürdieBedeutungdesDatenschutzesbenannt,wobeimanausheutigerSichtuntertechnischenGesichtspunktendamalsinBezugaufITundelektronischeDatenverarbeitungnochrelativamAnfangderEntwicklungstand.

Page 6: Statistische Geheimhaltung – Der Schutz vertraulicher ... · PDF fileBayern in Zahlen 8|2015 484 Beiträge aus der Statistik flexibleGenerierung geheim gehaltener Ergebnisse in Echtzeit,

BeiträgeausderStatistik 487

Bayern in Zahlen 8|2015

EineVielzahlvonForschungsfragenlässtsichüber-

haupt nur durch den Rückgriff aufMikrodaten an-

handstatistischerAnalyseverfahrenadäquatunter-

suchen und sinnvoll beantworten. Von Seiten der

Statistischen Ämter wurde mit den Forschungs-

datenzentrendesBundesundderLänderdaherei-

ne deutschlandweite Infrastruktur geschaffen, die

der empirisch arbeitendenWissenschaft einenZu-

gangzumittlerweilerund120unterschiedlichenEr-

hebungenausallenBereichenderamtlichenStatis-

tik ermöglicht. Innerhalb von nur wenig mehr als

zehnJahrengelangeshierdurch,daszuvorvorhan-

deneDefizitnachhaltigzubeheben.3

Allerdings istdie internationaleEntwicklung imBe-

reich Forschungsdaten schonwieder einenSchritt

weiter:RemoteAccess lautetdasSchlagwort, hin-

terdemsichausSichtvielerWissenschaftlerdieEr-

füllung langgehegter Wünsche in Sachen Daten-

zugang verbirgt. Die Möglichkeit, per Fernzugriff

– idealerweise vomeigenenArbeitsplatz aus –auf

MikrodatenderamtlichenStatistikzuzugreifenund

Analysendurchzuführen,stelltsichausNutzersicht

verlockend dar (Desai 2003). Für die Datennutzer

entfallen zeit- und möglicherweise auch kostenin-

tensiveGastaufenthalteindenStatistischenÄmtern;

zugleichmüssenkeinederartigenEinschränkungen

derDatenqualitätunddesAnalysepotentialsinKauf

genommenwerden, wie dies bei Verwendung der

für die externe Nutzung gedachten Scientific-Use-

FilesoftderFallist.AußerdemwürdenauchdieMit-

arbeiter der Statistischen Ämter vor Ort potenziell

entlastet.Demgegenüber steht aufSeitenderSta-

tistischen Ämter jedoch das Problem, im Einklang

mitdeneinschlägigengesetzlichenRegelungendie

WahrungderstatistischenGeheimhaltungsicherzu-

stellen.WerdenDateninnerhalbeinesstatistischen

AmteszurVerfügunggestellt,soerfolgtderZugang

unter unmittelbar kontrollierbaren technischenund

organisatorischen Rahmenbedingungen. Bei einer

DatennutzungperRemoteAccessistdiesnichtoder

nureingeschränktgegeben.DabeiistesinersterLi-

niederdirekteBlickaufdieMikrodaten,dersowohl

das spontane Erkennen von Merkmalsträgern als

auch die gezielte Suche nach solchen ermöglicht,

der ein Risiko aus Geheimhaltungssicht darstellt,

wennesimGegensatzzudenabgeschottetenGast-

arbeitsplätzen in den Statistischen Ämtern nicht

möglich ist, zu verhindern, dass möglicherweise

Zusatzinformationen, die der Reidentifizierung die-

nenkönnten,genutztwerden.Darüberhinausistes

– vergleichbar zum Datenzugang innerhalb der

Ämter–dieErstellungdeskriptiverErgebnistabellen

unddieErzeugungvonGrafiken,dieeinRisikobe-

inhaltenkann.DieErgebnissestatistischerAuswer-

tungsverfahren, beispielsweise von Regressions-

analysen, sind hingegen ausGeheimhaltungssicht

weitgehend unbedenklich, auch wenn sich unter

spezifischen Bedingungen ebenfalls Enthüllungsri-

siken ergeben können (Hochgürtel 2013; Ronning

etal.2011;Vogel2011).

Die technische Umsetzbarkeit einer solchen Re-

mote-Access-Lösungwurde imeuropäischenKon-

text im Rahmen des ESSNet-Projekts „Decentrali-

sedAndRemoteAccess toConfidentialMicrodata

intheESS(DARA)“(EssnetDARA2014)erfolgreich

getestet.EineRealisierungdesdabeierprobtenSys-

temsinnerhalbdesEuropäischenStatistischenSys-

temsistangedacht.MancheStatistikämteranderer

StaatenbietenihrenDatennutzernauchbereitsheu-

tedieMöglichkeit,zufestgelegten–teilweiserecht

restriktivenundrelativkostspieligen–Bedingungen

perFernzugriffmitamtlichenDatenzuarbeitenoder

siearbeitendaran,einesolcheNutzungsoptionzu

implementieren (Le Gléau/Royer 2011; Schulte-

Nordholt2013).Allerdingssinddiedabeigeltenden

gesetzlichen Rahmenbedingungen in der Regel

nicht oder nur eingeschränkt mit den entspre-

chendenRegelungeninDeutschlandvergleichbar.

In jüngerer Zeit werden zudem zunehmend orga-

nisatorischeMöglichkeiten inFormvonAkkreditie-

rungs-, Lizenzierungs- und Zertifizierungsverfahren

für Wissenschaftler und Forschungseinrichtungen

(Rendtel2014,Tubaroetal.2011)oderdasBilden

eines sogenannten „Circle of Trust“ (OECD 2014)

zwischenDatenproduzentenundDatennutzern,ba-

sierend auf vertraglichenRegelungen und vertrau-

ensbildendenMaßnahmen,alsErgänzungoderteil-

weisenErsatzderbisherigenGeheimhaltungspraxis

diskutiert,umdamiteineErleichterung–insbeson-

dere aber nicht ausschließlich, für den transnatio-

nalenForschungsdatenzugang–zuerreichen.

3DieseEntwicklungbetrafnichtnurdieStatistischenÄmterdesBundesundderLänder,sondernauchdiegroßenöffentlichenDatenproduzentenalsGanzes(Bender2014).

Page 7: Statistische Geheimhaltung – Der Schutz vertraulicher ... · PDF fileBayern in Zahlen 8|2015 484 Beiträge aus der Statistik flexibleGenerierung geheim gehaltener Ergebnisse in Echtzeit,

Bayern in Zahlen 8|2015

488 BeiträgeausderStatistik

Fazit

Das Ziel der statistischen Geheimhaltung ist der

grundgesetzlich verbriefte Schutz vertraulicherDa-

ten.DieamtlicheStatistikhatSorgedafürzutragen,

dassdieserVerpflichtungGenügegetanwird,undent-

sprechendeRisiken,dieausihrenVeröffentlichungen

resultieren könnten, auszuschließen. Um dies

zu erreichen, ist es notwendig zu beachten, dass

essichbeistatistischerGeheimhaltungumeinviel-

schichtigesThemahandelt,welchessichnichtallei-

neaufeinzelneTeilaspekterechtlicher,methodischer,

technischer und organisatorischer Art beschränken

lässt.Esistnotwendig,dieseAspekteimZusammen-

spielzubetrachten,umzupraxisgerechtenLösungen

zugelangenunddasangestrebteZiel,sichereDaten

inderbestmöglichenQualitätveröffentlichenzukön-

nen,zuerreichen.

Literatur

Bender,S.(2014),DatenzuganginDeutschland:Der

Paradigmenwechsel hat bereits stattgefunden.

AStA–Wirtschafts-undSozialstatistischesArchiv,

Vol.8(4),S.237-248.

Desai, T. (2003), Proving Remote Access to Data:

TheAcademicPerspective.In:MonographsofOf-

ficial Statistics 1.Work session on statistical da-

taconfidentiality.Luxembourg,7to9April2003.

Part1.Luxembourg:OfficeforOfficialPublications

oftheEuropeanCommunities,S.151–159.

Essnet DARA (2014). Final Report. Download-

unter:www.safe-centre.info/wp-content/up-

loads/2012/01/final_report_ESSnet_DA-

RA_20131204_publishable_version.pdf,

abgerufenam30.Juni2015.

Gesetz über die Statistik für Bundeszwecke (Bun-

desstatistikgesetzBStatG)vom22.Januar1987.

(BGBl.IS.462,565),zuletztgeändertdurchArti-

kel2desGesetzesvom9.Juni2005(BGBl.I

S.1534).

Hochgürtel,T.(2013),DieMessungderEnthüllungs-

risiken von Ergebnissen statistischer Analysen.

ArbeitspapierNr.3.InstitutfürDiskreteMathema-

tikundAngewandteStatistikderHochschule für

TechnikundWirtschaftdesSaarlandes.

Höhne,J.(2003),SAFE–einVerfahrenzurGeheim-

haltungundAnonymisierungstatistischerEinzelan-

gaben.BerlinerStatistik.Monatsschrift,03/2003,

S.96–107.

Höhne,J.(2010),VerfahrenzurAnonymisierungvon

Einzeldaten.StatistikundWissenschaft,Band16.

Wiesbaden:StatistischesBundesamt.

Höhne,J./Höninger,J.(2014),StatistischeGeheim-

haltungbeiderAuswertunggeoreferenzierterDa-

ten. Zeitschrift für amtliche Statistik Berlin-Bran-

denburg03/2014,S.54–61.

Höninger,J. (2012),Morpheus–An innovativeap-

proachtoremotedataaccess.JournaloftheInter-

nationalAssociation forOfficialStatistics,Vol.28

(3/4),S.151–157.

Hundepool,A./Domingo-Ferrer,J./Franconi,L./Gies-

sing,S./Lenz,R./Naylor,J./Schulte-Nordholt,E./

Seri,G./DeWolf,P.(2010),HandbookonStatisti-

cal Confidentiality. Version 1.2. Download unter:

http://neon.vb.cbs.nl/casc/.%5CSDC_Handbook.

pdf,abgerufenam30.Juni2015.

Hundepool, A./DeWolf, P.-P. (2012),Statistical dis-

closure control. Method series 12. Den Hague/

Heerlen:StatisticsNetherlands.

LeGléau,J.-P./Royer,J.-F.(2011),Lecentred’accès

sécurisé aux données de la statistique publique

ImRahmendesBeitragswurdeversucht,eineEin-

führungindierechtlichenundmethodischenGrund-

lagen der statistischen Geheimhaltung zu geben

unddabeidiewichtigstenVerfahrenzurGeheimhal-

tung vonHäufigkeits- undWertetabellen vorzustel-

len.Natürlich ist es nichtmöglich, dabeimehr als

einen knappen Überblick über die vielschichtige

Thematikzugeben.Interessierte,diesichintensiver

mitdemThemaansichoderabermiteinzelnenVer-

fahrenoderTeilaspektenbeschäftigenmöchten,fin-

den eine Vielzahl an Informationen beispielsweise

inHöhne2010,Hundepooletal.2010,Hundepool/

DeWolf2012oderRonningetal.2005.Darüberhi-

nausistzuEinzelaspekteneineVielzahlvonzumeist

englischsprachigen Fachartikeln und Arbeitspapie-

renvonExpertenausamtlicherStatistikunduniver-

sitärerForschungverfügbar.

Page 8: Statistische Geheimhaltung – Der Schutz vertraulicher ... · PDF fileBayern in Zahlen 8|2015 484 Beiträge aus der Statistik flexibleGenerierung geheim gehaltener Ergebnisse in Echtzeit,

BeiträgeausderStatistik 489

Bayern in Zahlen 8|2015

française: un nouvel outil pour les chercheurs.

Courrierdesstatistiques,n°130,May2011,INSEE.

Downloadunter:www.insee.fr/fr/ffc/docs_ffc/

cs130e.pdf,abgerufenam30.Juni2015.

OECD(2014),OECDExpertGroupforInternational

Cooperation onMicrodata Access. Final Report.

Downloadunter:www.oecd.org/std/microdata-ac-

cess-final-report-OECD-2014.pdf, abgerufen am

30.Juni2015.

Rendtel, U. (2014), Vom potenziellen Datenangrei-

fer zum zertifizierten Wissenschaftler – Für eine

Neugestaltung des Wissenschaftsprivilegs beim

Datenzugang.AStAWirtschafts-undsozialstatis-

tischesArchiv,Vol8.(4),S.183–197.

Ronning, G./Sturm, R./Höhne, J./Lenz, R./Rose-

mann, M./Scheffler, M./Vorgrimler, D. (2005),

Handbuch zur Anonymisierung wirtschaftsstatis-

tischer Mikrodaten. Statistik und Wissenschaft.

Band4.Wiesbaden:StatistischesBundesamt.

Ronning, G./Bleninger, P./ Drechsler, J./Gürke, C.

(2011), Remote Access. Eine Welt ohne Mikro-

daten??FDZ-ArbeitspapierNr.33.Downloadun-

ter: www.forschungsdatenzentrum.de/publikati-

onen/veroeffentlichungen/33.asp, abgerufen am

30.Juni2015.

Rosemann,M. (2007),Auswirkungenvonstochas-

tischer Überlagerung und Mikroaggregation auf

dieSchätzunglinearerundnichtlinearerModelle.

WirtschaftundStatistik,04/2007,S.417–432.

Schulte-Nordholt (2013), Access to microdata in

theNetherlands: fromacoldwar tocooperation

projects. Workingpaper zur Joint UNECE/Euro-

statworksessiononstatisticaldataconfidentiali-

ty,Ottawa,28.–30.Oktober2013.Downloadunter:

www.unece.org/fileadmin/DAM/stats/documents/

ece/ces/ge.46/2013/Topic_3_Schulte_Nordholt.

pdf,abgerufenam30.Juni2015.

Tubaro,P./Cros,M./Silberman,R.(2012),Accessto

OfficialDataandResearcherAccreditationinEu-

rope:existingBarriersandaWayforward.

IASSISTQuarterly,Spring2012,S.22–27.

Vogel, A. (2011), Enthüllungsrisiko beim Remo-

te Access: Die Schwerpunkteigenschaft der Re-

gressionsgerade,WorkingPaperReihedesRates

fürSozial- undWirtschaftsdaten,Nr. 174.Down-

load unter: www.ratswd.de/download/RatSWD_

WP_2011/RatSWD_WP_174.pdf, abgerufen am

30.Juni2015.


Recommended