Post on 11-Apr-2017
transcript
||
Forschungsdatenmanagement – Was kann ich tun?Dr. Ana Sesartic – Digitaler Datenerhalt
28.03.2017Ana Sesartic 1
|| 28.03.2017Ana Sesartic 2
Heutiges Programm
Was ist Datenmanagement und weshalb betrifft es uns?
ETH Vorschriften, geistiges Eigentum, Privatsphäre und Zugriffsrechte
Organisation, Speichern, Teilen und Archivieren von Daten
Methoden, Dienstleistungen, Werkzeuge
||
Ihren (wissenschaftlichen) Hintergrund
Bisherige Erfahrungen mit Datenmanagement
Motivation zur Kursteilnahme
28.03.2017Ana Sesartic 3
Erzählen Sie kurz über…
||
Was ist Datenmanagement und weshalb betrifft es uns?
28.03.2017Ana Sesartic 4
DigitaleForschungs-
daten
Hypothese/ Forschungs-
frageDaten
Erfassen/ Generieren
Analyse und Interpretation
SynthesePublikation
Zugriff und Verifizierung
Wieder-verwendung
||
Datenmanagement während der Forschung
Daten teilen, veröffentlichen und erhalten – für sich selbst und andere!
28.03.2017Ana Sesartic 5
Zwei Hauptfaktoren
||
Datenmanagement ist ein allgemeiner Begriff, welcher die Organisation, Strukturierung, Speicherung und Pflege von Informationen beinhaltet, die während einesForschungsvorhabens verwendet oder erzeugt werden
Es umfasst:
Wie Sie im Alltag mit Informationen über die Laufzeit eines Projektes umgehen
Was auf längere Sicht passiert – was Sie damit machen, nachdem das Projektabgeschlossen ist
28.03.2017Ana Sesartic 6
Was ist Datenmanagement?
||
Daten werden in der Regel erstellt, ohnederen Veröffentlichung zu planen
Forschungsdaten bedürfen einer umfassenden Dokumentation
Nur technische Metadaten können später extrahiert werden, aber wenig bis gar keine Dokumentation von Inhalt oder Kontext kann sinnvoll hinzugefügt werden.
28.03.2017Ana Sesartic 7
Einschränkungen für den Erhalt und Austausch
GARBAGE IN, GARBAGE OUT!
||
Wozu Datenmanagement?
Oder: Über Zuckerbrot (Vorteile) und Peitsche (Bestimmungen)
28.03.2017Ana Sesartic 8
||
Um effizient und effektiv arbeiten zu können
Sicherung nicht replizierbarer Daten
Vermeidung redundanter Datenerhebungen
Möglichst umfassende (kosteneffiziente) Auswertung der Daten
Reanalyse unter anderen Fragestellungen / mit neuenMethoden
Verstärkung des wissenschaftlichen Austausches
Impact factor: Trend zur Zitierbarkeit von Forschungsdaten als Werk
Um die Vorgaben der Geld- und Arbeitgeber zuerfüllen SNF fordert Datenmanagementpläne ab Oktober 2017
Horizon 2020 Programm der EU fordert ebenfallsDatenmanagementpläne
Einhaltung der Regeln guter wissenschaftlicherPraxis, Transparenz und validität
Sie können die Diskussion in Ihrer Forschungsgemeinde, in Ihrer Institution und mit Geldgebern beeinflussen
28.03.2017Ana Sesartic 9
Weshalb Zeit und Mühe aufwenden?
||
ETH Vorschriften, geistiges Eigentum, Privatsphäre und Zugriffsrechte
28.03.2017Ana Sesartic 10
||
https://itsecurity.ethz.ch/de/#/manage_your_data
28.03.2017Ana Sesartic 11
||
«An der ETH Zürich beruht Forschung auf intellektueller Redlichkeit. Die Forschenden […] stehen für wissenschaftliche Integrität undWahrhaftigkeit in der Forschung und beiBegutachtungen.»
https://www.ethz.ch/content/dam/ethz/main/research/pdf/forschungsethik/Broschure.pdf
28.03.2017Ana Sesartic 12
Richtlinien für Integrität in der Forschung
||
«Sämtliche Verfahrensschritte im Umgang mit den Primärdaten (statistische Analysen, Umformungen etc.) sind in einer der jeweiligen Disziplin angepassten Form (z.B. Laborjournal, andere Datenträger) derart zu dokumentieren, dass die aus den Primärdaten gewonnenen Ergebnisse vollständig reproduziert werden können.»
«Die Projektleitung ist für das Management der Daten (Aufbewahrung, Datenzugang, Einhaltung des Datenschutzes, etc.) verantwortlich. Sie sorgt insbesondere dafür, dass Daten und Materialien nach Abschluss des Projektes während der für das Fachgebiet massgebenden Frist aufbewahrt bleiben und gegebenenfalls innerhalb der gesetzlich vorgegeben Frist ordnungsgemäss vernichtet werden.»
28.03.2017Ana Sesartic 13
Artikel 11. Erhebung, Dokumentation und Aufbewahrung von Primärdaten
||
«[…] alle [ETH] Angehörigen […] an die gesetzlichen Vorschriften und internenWeisungen halten und diese in ihrem Bereichumsetzen.»
«Der vorliegende Compliance Guide bietet dazueine Orientierungshilfe. […]Damit die Umsetzung leichter fällt, sind zu jedemPunkt weitere Informationskanäle und Auskunftspersonen angegeben, die konsultiertwerden können.»
https://rechtssammlung.sp.ethz.ch/Dokumente/133.pdf
28.03.2017Ana Sesartic 14
Compliance Guide
|| 28.03.2017Ana Sesartic 15
Wissen Sie wo Ihre Daten sind und wer Zugriff hat?
http://fsfe.org/nocloud
||
«Die Auslagerung von sensitiven Daten der ETH Zürich (z.B. Forschungsdaten, die einer vertraglichen Geheimhaltung mit Dritten unterliegen, wichtige Geschäftsdaten der ETH Zürich wie etwa Finanzdaten, personenbezogene Mitarbeiter- oder Studierendendaten, Gutachten) ist nicht zulässig. Die ETH Zürich muss jederzeit den Zugriff und die Kontrolle über diese Daten haben.»
«Die Nutzung von Cloud oder Social Media Services (z.B. Facebook, Google, Dropbox) in der Forschung für den Austausch mit Forschenden anderer Hochschulen, in der Lehre für den Austausch mit den Studierenden (Vorlesungsfolder, etc.) ist unproblematisch, solange keine sensitiven Daten der ETH Zürich betroffen sind und keine Rechte Dritter, namentlich Persönlichkeits- oder Urheberrechte, verletzt werden.»
Links:
https://www1.ethz.ch/id/documentation/rechtliches/Merkblatt_Cloud_Computing_MA.pdf
https://www1.ethz.ch/id/documentation/rechtliches/leaflet_example_cloud_DE.pdf
28.03.2017Ana Sesartic 16
Cloud Computing @ ETH Zürich Regeln und Vorschriften
||
Personenbezogene Daten sind nach schweizerischem Datenschutzrecht aufzubewahren
Eine entsprechende Anonymisierung kann erforderlich sein Das Löschen einzelner Datensätze muss jederzeit möglich sein Die Testpersonen müssen eine Einverständniserklärung unterzeichnen
28.03.2017Ana Sesartic 17
Privatsphäre
||
Respektieren Sie die Rechte anderer: Dritte Personen, mit denen Sie arbeiten
Im Zweifelsfall: auch bei einer CC-Lizenz um Genehmigung fragen Beachten Sie, dass gemäss ETH-Gesetz die meisten immateriellen Rechte an den
Werken ihrer Angestellten, der ETH Zürich gehören. Im Zweifelsfalle an ETH transfer wenden (www.transfer.ethz.ch)
Achten Sie darauf, ausreichende Rechte zu behalten Z.B. für Open Access Publishing («grüner Weg», http://www.library.ethz.ch/Open-Access) Z.B. in Bezug auf Patentanmeldungen: ETH transfer (www.transfer.ethz.ch)
28.03.2017Ana Sesartic 18
Geistiges Eigentum
|| 28.03.2017Ana Sesartic 19
share-alikeby non-derivative Some rights
reserved
share
non-commercial public domainremix
|| 28.03.2017Ana Sesartic 20
Vorteile des Teilens von Daten
© Neil Chue Hong http://dx.doi.org/10.6084/m9.figshare.942289
||
Daten, Metadaten und Kontext werden benötigt, um einen Datensatz richtig zu verstehen.
Das Datenmanagement beinhaltet nicht nur Ihre eigenen Daten, sondern auch eine kritische Sicht auf fremde, von Ihnen verwendeten Daten: Verstehen Sie, wie die Daten gewonnen wurden? Haben Sie genügend Informationen, um ihre Zuverlässigkeit zu bewerten? Können Sie die Daten verwenden, ohne mit ihren Urhebern Rücksprache halten zu müssen? Werden Sie in ein paar Monaten noch wissen, welche Daten Sie von anderen Forschern
wiederverwendet haben? Wissen Sie, wie Sie die von Ihnen verwendeten Daten zitieren sollen? (siehe
https://www.datacite.org/cite-your-data.html)
28.03.2017Ana Sesartic 21
(Wieder-)verwendung von Daten kritisch überdenken
||
Langzeitarchivierung von DatenUnd wie man sich darauf vorbereiten kann
28.03.2017Ana Sesartic 22
||
Ein ordnungsgemässes Datenmanagement, oder dessen Fehlen bestimmen, ob der Datenerhalt möglich ist
Über eine Zeitspanne von zehn Jahren, mag Datenmanagement allein genügen, es ist jedoch sinnvoll vorauszudenken
Falls Daten über längere Zeiträume aufbewahrt und genutzt werden sollen, sind weitere Massnahmen nötig:
Daten sollen so selbsterklärend wie möglich sein, einschliesslich der Dokumentation über die verwendete Software oder noch besser, der Aufbewahrung der Software selber; einschliesslich z.B. Referenzoutputs von Modellalgorithmen
Mehr Sorgfalt bei der Auswahl und Verwendung von Dateiformaten ist geboten
28.03.2017Ana Sesartic 23
Was hat das mit Datenmanagement zu tun?
||
Offene Standards (nicht proprietär) Falls proprietär, nach Möglichkeit konvertieren oder, falls nicht möglich, Programm zur
Ansicht der Daten beifügen
Gut dokumentiert
Weit verbreitet und unterstützt durch viele Programme
Unkomprimiert (oder zumindest verlustfrei komprimiert)
Unverschlüsselt
Im Zweifelsfall Original behalten und Kopie erstellen in einem offenen Format
Sich nicht auf Dateiendungen verlassen
Beachten, dass Daten auf unterschiedlichen Betriebssystemen verwendet werden können28.03.2017Ana Sesartic 24
Bevorzugte Eigenschaften von Fileformaten
||
Bilder: unkomprimierte TIFF; JPEG2000
Text: ASCII, inklusive XML etc.Informationen über Kodierung und Abhängigkeiten wie Stylesheets und TeX-Bibliotheken nicht vergessen
Text (formatiert): PDF/A1-b, (PDF)
Daten aus Tabellen: CSV
Tabellen: (CSV), (ODF, OOXML)
28.03.2017Ana Sesartic 25
Beispiele
||
Dies bedeutet nicht, dass Sie die Daten nicht in anderen Formaten abspeichern dürfen
Sie müssen sich nur dessen bewusst sein, dass proprietäre oder undokumentierte Formate (auch Ihre eigenen!) in der Zukunft Probleme verursachen können
Überlegen Sie sich alternative Formate (ja, redundant!) zu den proprietären Formaten zu benutzen…
…und Kontext-Informationen in einer Readme-Datei, Begleitdokument oder Metadaten hinzuzufügen die sie selber in einigen Jahren gerne sehen würden, um die eigenen Daten verstehen zu können.
28.03.2017Ana Sesartic 26
Achtung
||
Organisieren Sie Ihre DatenFinden Sie was Sie brauchen, wenn Sie es brauchen?
28.03.2017Ana Sesartic 27
|| 28.03.2017Ana Sesartic 28
"A story told in file names":
Source:http://www.phdcomics.com/comics/archive.php?comicid=1323
Copyright: Jorge Cham
Kommt das Ihnen bekannt vor?
||
Dateien nach Themen ordnen Ordnerpfade möglichst kurz halten Dateinamen sind…
Eindeutig und reflektieren den Inhalt Verwenden nur ASCII Zeichen (keine Sonderzeichen)
Weitere Informationen finden Sie unter: http://www.data.cam.ac.uk/data-management-guide
/organising-your-data http://www.wur.nl/en/Expertise-Services/
Data-Management-Support-Hub/Browse-by-Subject/Organising-files-and-folders.htm
http://datalib.edina.ac.uk/mantra/organisingdata/
28.03.2017Ana Sesartic 29
Versuchen Sie es lieber so…
© Wageningen University
||
Selbstkritische Fragen: Wie müssen Daten aussehen, um sie mit wissenschaftlicher Überzeugung und Vertrauen in
Qualität und Korrektheit wiederverwenden zu können?
Stimmt das für unsere eigenen Daten? Was fehlt?
Aufgaben für Gruppenleiterinnen und -leiter Vereinbaren Sie verbindliche Regeln
Bestimmen Sie einen Datenmanagement-Verantwortlichen innerhalb der Gruppe
Besprechen und dokumentieren Sie Regeln (schriftlich) mit dem Datenmanagement-Verantwortlichen
28.03.2017Ana Sesartic 30
Was ist zu tun? Strategien für Forschungsgruppen
||
Datenmanagementplan
28.03.2017Ana Sesartic 31
||
Ein kurzer Plan, der zu Beginn eines Projektes geschrieben und während des Projektverlaufs aktualisiert wird, um zu definieren:
Welche Daten werden gesammelt oder erstellt?
Wie werden die Daten dokumentiert und beschrieben?
Wo werden die Daten gespeichert?
Wer ist verantwortlich für Datensicherheit und Backup?
Welche Daten sollen geteilt und/oder langzeitarchiviert werden?
Wie werden die Daten geteilt und mit wem?
28.03.2017Ana Sesartic 32
Was ist ein Datenmanagementplan (DMP)?
||
DMPs werden zunehmend für Projektanträge verlangt (z.B. durch SNF ab Oktober 2017), sind aber auch sonst nützlich, wann immer Forschende Daten erstellen.
Sie helfen Forschenden:
Bewusste Entscheidungen zu treffen, um Probleme zu antizipieren und zu vermeiden
Konsistenzwahrende Prozeduren frühzeitig zu entwickeln
Sicherzustellen, dass Daten korrekt, vollständig, zuverlässig und sicher sind
(Unerwünschte) Duplizierung, Datenverlust und Sicherheitsverletzungen zu vermeiden
Zeit und Mühe zu sparen und ihr Leben zu erleichtern!
28.03.2017Ana Sesartic 33
Weshalb ein DMP?
||
Unterstützt Sie bei der Erstellung eines DMP oder bei der Diskussion von Datenmanagement im Allgemeinen
Umfasst die allgemeine Planung und die Phasen des Datenlebenszyklus, von der Datenerfassung über die Erstellung bis hin zur Verteilung und dem langfristigenManagement der Daten
Spezielle Abschnitte umfassen Dokumentation und Metadaten, Dateiformate, Speicherung, ethische Fragen und geistiges Eigentum
http://bit.ly/rdmchecklist
28.03.2017Ana Sesartic 34
Was tun?Datenmanagement Checkliste der ETH / EPFL
||
https://dmponline.dcc.ac.uk/
Das DMPOnline-Tool des UK Digital Curation Centre hilft Ihnen, Horizon 2020 konformeDatenmanagementpläne zu erstellen, indem Sie einen Fragenbogen beantworten, der sicherstellt, dassIhre wissenschaftlichen Daten:
Auffindbar Zugänglich Bewertbar und verständlich Nutzbar sind über den ursprünglichen Zweck hinaus Interoperabilität mit spezifischen Qualitätsstandards aufweisen
Sammlung von DMP Beispielen:http://www.dcc.ac.uk/resources/data-management-plans/guidance-examples
28.03.2017Ana Sesartic 35
DMPOnline
||
Werkzeuge
28.03.2017Ana Sesartic 36
||
Versionierung:Wie gehen Sie damit um? Was funktioniert gut? Was läuft schief?
Namensregeln:Benutzen Sie sie und falls ja, welche?
Teilen:Welche Werkzeuge und Dienste verwenden Sie? Was sind Ihre Erfahrungen?
Literaturmanagement:Welche Programme verwenden Sie? Was sind ihre Vor- und Nachteile?
Sonstige?Z.B. fachspezifische Plattformen oder zentrale Datenbanken?
28.03.2017Ana Sesartic 37
Gruppendiskussion zur aktuellen Nutzung
||
Wo befinden sich Ihre Daten? Welche Rechtsvorschriften gelten, z.B. in Bezug auf Datenschutz? Ist der Dienst nachhaltig? Vertrauen Sie dem Anbieter? Wer kann auf welche Ihrer Daten zugreifen und
diese nutzen? Wie bekommen Sie Ihre Daten zurück? Ist eine bestimmte Lizenz erforderlich? Gibt es unmittelbare oder längerfristige Kosten?
28.03.2017Ana Sesartic 38
Kriterien zur Auswahl von Dienstleistungen und Tools
© Jorgen Stamp
|| 28.03.2017Ana Sesartic 39
Repositorien und Registries
http://www.re3data.org
http://datadryad.org
https://zenodo.org
http://figshare.com
https://www.openaire.eu/search/data-providers
(nur bedingt empfehlenswert, Daten können laut Nutzungsbedingungen jederzeit ohne Ankündigung seitens figshare gelöscht werden)
||
Empfohlen Daten in der Schweiz Sicherheitsbestimmungen erfüllt
Nur bedingt emfpohlen Daten in EU/USA Sicherheitsbestimmungen nur z.T. erfüllt Nie vertrauliche / Private Daten dort ablegen
28.03.2017Ana Sesartic 40
Zusammenarbeit – Teilen / Sharing
https://www.dropbox.com
https://www.switch.ch/drive/
https://www.switch.ch/filesender
https://cifex.ethz.ch/
https://polybox.ethz.ch
https://www.wetransfer.com
|| 28.03.2017Ana Sesartic 41
Zusammenarbeit - Organisation
https://www.openproject.org
http://www.redmine.orghttps://trello.com
https://slack.com
https://tagpacker.com
https://asana.com
|| 28.03.2017Ana Sesartic 42
Kommerzielle ELN Lösungen in Verwendung an der ETH Zürich
https://benchling.com
http://labcollector.com
http://findingsapp.com
||
Anpassung möglich Datenspeicherung an der ETH Speichert: Proben Protokolle Beschreibung der Experimente Daten
28.03.2017Ana Sesartic 43
Hausinterne Lösung für Forschungsdatenmanagement /ELN
Samples
Protocols
Experiment Description
Raw Data
Analysis Scripts
Results
Laboratory Notebook &
Inventory Manager
https://openbis-eln-lims.ethz.ch
|| 28.03.2017Ana Sesartic 44
Zusammenarbeit - Versionierung
https://subversion.apache.org https://github.com
https://bitbucket.orghttps://www1.ethz.ch/id/services/list/sharepoint(Sharepoint ist nur für die Versionierung von Dokumenten gedacht, nicht für Forschungsdaten!)
|| 28.03.2017Ana Sesartic 45
Zusammenarbeit - Schreiben
https://www.overleaf.com
https://www.authorea.com
https://atlas.oreilly.com
https://hypothes.is
https://evernote.com
http://simplenote.com
https://www.onenote.com
https://www1.ethz.ch/id/services/list/sharepoint
||
www.jabref.org
28.03.2017Ana Sesartic 46
Zusammenarbeit – Referenzmanagement
www.mendeley.com endnote.com
www.zotero.org
www.citeulike.org www.bibsonomy.org
|| 28.03.2017Ana Sesartic 47
Weitere Dienstleistungen an der ETH ZürichETH-Bibliothek ETH Data-Archive (http://www.library.ethz.ch/Digitaler-Datenerhalt) DOI Registration (http://www.library.ethz.ch/DOI-Desk) Open Access (http://www.library.ethz.ch/de/Open-Access) ETH E-Collection (http://e-collection.library.ethz.ch) ETH E-Citations (http://e-citations.ethbib.ethz.ch) ORCID (http://www.library.ethz.ch/ORCID) Verknüpfung mit Ihrer ETH-Identität möglich
Informatikdienste Speicher (meist via internes IT-Support-Team)
NAS (Network Attached Storage) (https://www.ethz.ch/services/de/it-services/katalog/speicher/nas.html)
LTS (Long-Term Storage, Langzeitspeicherung)(https://www.ethz.ch/services/de/it-services/katalog/speicher/lts.html)
ETH transfer (http://www.transfer.ethz.ch)
Software-Offenlegungs-Workflow mit dem ETH Data Archive
Werden demnächst in «research collection» zusammen-geführt und ermöglichen Publikation von Daten und Dokumenten
||
Überlegen Sie, was Sie tun
Beginnen Sie frühzeitig
Treffen Sie Vereinbarungen über klare Konzepte und einfache Werkzeuge
Sie brauchen nicht immer raffinierte Apps
Sprechen Sie mit Kolleginnen
Informieren Sie sich über das Angebot Ihrer lokalen Dienstleister
«Halten Sie es so einfach wie möglich – aber mit gesundem Misstrauen!»
28.03.2017Ana Sesartic 48
Take home message
|| 28.03.2017Ana Sesartic 49
Danke
Dr. Ana SesarticDigitaler DatenerhaltETH-BibliothekRämistrasse 1018092 Zürich044 632 73 76ana.sesartic@library.ethz.ch
www.library.ethz.ch/Digitaler-Datenerhalt
data-archive@library.ethz.ch