Workflow generierte Provenienz Metadaten in PubFloweprints.uni-kiel.de/20553/1/20120323_PCB.pdf ·...

Post on 18-Sep-2018

215 views 0 download

transcript

Kiel, 23.03.2012

Workflow generierte Provenienz Metadaten

in PubFlowPeer Brauer

Universität zu Kiel

1

Kiel, 23.03.2012

Agenda‣ Daten und ihre Provenienz‣ Das Projekt PubFlow‣ Provenienzdaten-Erfassung in PubFlow‣ Ausblick

2

> Agenda

Kiel, 23.03.2012 3

> Daten und ihre Provenienz

Was sind Provenienz-Daten?

‣Beschreibung der Herkunft von Daten‣Beschreibung der Veränderung von

Daten‣Beschreibung von Faktoren, die

Daten beeinflussen

Kiel, 23.03.2012 4

> Daten und ihre Provenienz

Wozu erfasst man Provenienz-Daten?

Kiel, 23.03.2012 5

> Daten und ihre Provenienz

Validierbarkeit

Kiel, 23.03.2012 6

> Daten und ihre Provenienz

NachvollziehbarkeitQ

UEL

LE: T

HE

FOU

RTH

PA

RA

DIG

M -

DAT

A-IN

TEN

SIV

E SC

IEN

TIF

C D

ISC

OV

ERY

/ M

ICRO

SOFT

RES

ERA

CH

200

9

Kiel, 23.03.2012 7

> Daten und ihre Provenienz

Wiederholbarkeit

QU

ELLE

: TH

E FO

URT

H P

AR

AD

IGM

- D

ATA

-INT

ENSI

VE

SCIE

NT

IFC

DIS

CO

VER

Y /

MIC

ROSO

FT R

ESER

AC

H 2

009

Kiel, 23.03.2012 8

> Daten und ihre Provenienz

Wie sind Provenienz-Daten strukturiert?

‣Abhängigkeiten zwischen Rohdaten und Datenprodukten

Rohdatum DatenproduktVerarbeitung

Provenienz-Daten

Kiel, 23.03.2012 9

> Daten und ihre Provenienz

Wie sind Provenienz-Daten strukturiert?

‣Provenienz-Daten bilden eine Ontologie

verarbeitet

Rohdatum Datenprodukt

Algorithmus

erzeugt

Kiel, 23.03.2012 10

> Das Projekt PubFlow

Das Projekt PubFlow

Kiel, 23.03.2012 11

> Das Projekt PubFlow

Ziel des Projekts

‣Entwicklung Scientific Workflows zur Automatisierung sich wiederholender Tätigkeiten

‣Zeitersparnis für den Forscher, den Datenmanager, ...

Kiel, 23.03.2012 12

> Das Projekt PubFlow

InstitutionalData

Repository

Observation DataCuration

Pre-processing

Simulation &Analysis

Post-processing Review

Archival &Publication

DigitalLibrary

WDCResearch

Paper

Visualization

Kiel, 23.03.2012 13

> Das Projekt PubFlow

InstitutionalData

Repository

Observation DataCuration

Pre-processing

Simulation &Analysis

Post-processing Review

Archival &Publication

DigitalLibrary

WDCResearch

Paper

Visualization

Kiel, 23.03.2012 14

> Das Projekt PubFlow

InstitutionalData

Repository

Observation DataCuration

Pre-processing

Simulation &Analysis

Post-processing Review

Archival &Publication

DigitalLibrary

WDCResearch

Paper

Visualization

Kiel, 23.03.2012 15

> Das Projekt PubFlow

InstitutionalData

Repository

Observation DataCuration

Pre-processing

Simulation &Analysis

Post-processing Review

Archival &Publication

DigitalLibrary

WDCResearch

Paper

Visualization

Kiel, 23.03.2012 16

> Das Projekt PubFlow

InstitutionalData

Repository

Observation DataCuration

Pre-processing

Simulation &Analysis

Post-processing Review

Archival &Publication

DigitalLibrary

WDCResearch

Paper

Visualization

Kiel, 23.03.2012 17

> Das Projekt PubFlow

InstitutionalData

Repository

Observation DataCuration

Pre-processing

Simulation &Analysis

Post-processing Review

Archival &Publication

DigitalLibrary

WDCResearch

Paper

Visualization

Kiel, 23.03.2012 18

> Das Projekt PubFlow

InstitutionalData

Repository

Observation DataCuration

Pre-processing

Simulation &Analysis

Post-processing Review

Archival &Publication

DigitalLibrary

WDCResearch

Paper

Visualization

Kiel, 23.03.2012 19

> Das Projekt PubFlow

InstitutionalData

Repository

Observation DataCuration

Pre-processing

Simulation &Analysis

Post-processing Review

Archival &Publication

DigitalLibrary

WDCResearch

Paper

Visualization

Kiel, 23.03.2012 20

> Das Projekt PubFlow

InstitutionalData

Repository

Observation DataCuration

Pre-processing

Simulation &Analysis

Post-processing Review

Archival &Publication

DigitalLibrary

WDCResearch

Paper

Visualization

Kiel, 23.03.2012 21

> Das Projekt PubFlow

InstitutionalData

Repository

Observation DataCuration

Pre-processing

Simulation &Analysis

Post-processing Review

Archival &Publication

DigitalLibrary

WDCResearch

Paper

Visualization

Kiel, 23.03.2012 22

> Das Projekt PubFlow

InstitutionalData

Repository

Observation DataCuration

Pre-processing

Simulation &Analysis

Post-processing Review

Archival &Publication

DigitalLibrary

WDCResearch

Paper

Visualization

Kiel, 23.03.2012 23

> Das Projekt PubFlow

InstitutionalData

Repository

Observation DataCuration

Pre-processing

Simulation &Analysis

Post-processing Review

Archival &Publication

DigitalLibrary

WDCResearch

Paper

Visualization

Kiel, 23.03.2012 24

> Das Projekt PubFlow

InstitutionalData

Repository

Observation DataCuration

Pre-processing

Simulation &Analysis

Post-processing Review

Archival &Publication

DigitalLibrary

WDCResearch

Paper

Visualization

Das PubFlow-Evaluationsbeispiel

Kiel, 23.03.2012 26

> Das Anwendungsbeispiel

Event 790 80103 80105 80106 716 80119 80104 106033 80109 80107 715 106034 80103 717 716

eventID 203001 3639.2 239.61 2.4779 34.9077

203002 241.5 406 35 3032.0 243.27 2.7696 34.9337

203003 228.38 23.3 34.9805 0.09 21.74 178 16 1.51 2022.7 228.88 3.5702 34.9776

203004 131.89 32.43 34.9542 0.04 18.66 2.07 1010.9 133.85 6.1735 34.9532

203005 76.92 34.72 0.06 13.9 289 231 2.11 605.1 77.16 8.9044 35.1005

203006 70.55 31.07 0.01 9.49 181 512 1.81 453.5 70.85 11029 35.3706

203007 64.52 29.46 0.02 7.97 486 689 1.69 350.8 64.63 11.9951 35.4623

203008 75.33 23.8 0.01 0.05 5.54 513 893 1.39 246.5 74.96 13.3839 35.6562

Kiel, 23.03.2012 27

> Das Projekt PubFlow

InstitutionalData

Repository

Observation DataCuration

Pre-processing

Simulation &Analysis

Post-processing Review

Archival &Publication

DigitalLibrary

WDCResearch

Paper

Visualization

Kiel, 23.03.2012 27

> Das Projekt PubFlow

InstitutionalData

Repository

Observation DataCuration

Pre-processing

Simulation &Analysis

Post-processing Review

Archival &Publication

DigitalLibrary

WDCResearch

Paper

Visualization

- Messverfahren

Kiel, 23.03.2012 27

> Das Projekt PubFlow

InstitutionalData

Repository

Observation DataCuration

Pre-processing

Simulation &Analysis

Post-processing Review

Archival &Publication

DigitalLibrary

WDCResearch

Paper

Visualization

- Messverfahren- Rundung- Kompression

- Format- ...

Kiel, 23.03.2012 27

> Das Projekt PubFlow

InstitutionalData

Repository

Observation DataCuration

Pre-processing

Simulation &Analysis

Post-processing Review

Archival &Publication

DigitalLibrary

WDCResearch

Paper

Visualization

- Messverfahren- Rundung- Kompression

- Format- ... - Qualitätssicherung?

Kiel, 23.03.2012 27

> Das Projekt PubFlow

InstitutionalData

Repository

Observation DataCuration

Pre-processing

Simulation &Analysis

Post-processing Review

Archival &Publication

DigitalLibrary

WDCResearch

Paper

Visualization

- Messverfahren- Rundung- Kompression

- Format- ... - Qualitätssicherung?

- Datenreduktion

Kiel, 23.03.2012 28

> Provenienz-Daten Erfassung in PubFlow

Die Provenienz-Daten Erfassung in PubFlow

Kiel, 23.03.2012 29

> Provenienz-Daten Erfassung in PubFlow

Ansatz

‣Erfassen der Provenienz-Daten in den Workflows‣Verwendung eines Monitoring-

Frameworks zum Erfassen der Zustände des Workflows

Kiel, 23.03.2012 30

> Provenienz-Daten Erfassung in PubFlow

Technische Umsetzung

‣Einbindung eines Monitoring-Frameworks in die Workflow-Engine‣Abbildung von Provenienz Daten auf

Monitoring-Anweisungen‣ Integration der Monitoring-

Anweisung in die Workflows

Kiel, 23.03.2012 31

> Provenienz-Daten Erfassung in PubFlow

‣Einbindung eines Monitoring-Frameworks in die Workflow-Engine

Speicher

Kieker.WFM_Analyzer

Kieker Monitoring-Log / Stream

Kieker.workflow.AnalyzerKieker.workflow.Visualizer

Kieker.workflow.Space

Kieker.workflow.Preprocessor

Kieker.monitoring.Writer

Kieker.workflow.monitoring.ode.Probe

Kiel, 23.03.2012 32

> Provenienz-Daten Erfassung in PubFlow

‣Profile zur Abbildung von Provenienz Anforderungen auf Monitoring-Anweisungen

<monitor:profile name=“provenanceLight„> <monitor:targetelement type=“activity„ > <monitor:eventtype>activityEnabledEvent</monitor:eventtype> <monitor:eventtype>activityDisabledEvent</monitor:eventtype> </monitor:targetelement> ... <monitor:targetelement type=“variable„ > <monitor:eventtype>VariableModificationEvent</monitor:eventtype> <monitor:eventtype>VariableReadEvent</monitor:eventtype> </monitor:targetelement> ... <monitor:event type=“VariableModificationEvent„> <monitor:fokus>varName</monitor:fokus> <monitor:fokus>newValue</monitor:fokus> </monitor:event></monitor:profile>

Kiel, 23.03.2012 33

> Provenienz-Daten Erfassung in PubFlow

‣ Integration der Monitoring-Anweisung in die Workflows per Workflow Extensions

Kiel, 23.03.2012 34

> Provenienz-Daten Erfassung in PubFlow

Kiel, 23.03.2012 34

> Provenienz-Daten Erfassung in PubFlow

<process name="HelloWorld" ...>

...

<sequence name="Sequence">

<!-- receive the name of a person --> <receive name="start" operation="sayHello" partnerLink="caller" portType="tns:Greeter" variable="request" createInstance="yes" />

<!-- compose a greeting phrase --> <assign name="assign1"> <copy>

<from expression="concat('Hello, ', bpel:getVariableData('request', 'name'), '!')" />

<to variable="response" part="greeting" /> </copy> </assign>

<!-- send greeting back to caller --> <reply name="end" operation="sayHello" partnerLink="caller" portType="tns:Greeter" variable="response" />

</sequence>

</process>

Kiel, 23.03.2012 35

> Provenienz-Daten Erfassung in PubFlow

<process name="HelloWorld" ... xmlns:wfm=""http://pubflow.de/wfm/extensions" >

... <bpel:extensions> <bpel:extension mustUnderstand="no" namespace="http://pubflow.de/wfm/extensions"/> </bpel:extensions>

<sequence name="Sequence">

<!-- receive the name of a person --> <receive name="start" operation="sayHello" partnerLink="caller" portType="tns:Greeter" variable="request" createInstance="yes" />

<!-- compose a greeting phrase --> <assign name="assign1"> <wfm:param data="provenance" name="wfm.monitoring.type" type="config" /> <copy>

<from expression="concat('Hello, ', bpel:getVariableData('request', 'name'), '!')" />

<to variable="response" part="greeting" /> </copy> </assign>

<!-- send greeting back to caller --> <reply name="end" operation="sayHello" partnerLink="caller" portType="tns:Greeter" variable="response" />

</sequence>

</process>

Kiel, 23.03.2012 36

> Provenienz-Daten Erfassung in PubFlow

‣Ablauf

Kieker Monitoring-Log / Stream

Kieker.workflow.AnalyzerKieker.workflow.Visualizer

Kieker.workflow.Space

Kieker.workflow.Preprocessor

Kieker.monitoring.Writer

Kieker.workflow.monitoring.ode.Probe

Kiel, 23.03.2012 36

> Provenienz-Daten Erfassung in PubFlow

‣Ablauf

Kieker Monitoring-Log / Stream

Kieker.workflow.AnalyzerKieker.workflow.Visualizer

Kieker.workflow.Space

Kieker.workflow.Preprocessor

Kieker.monitoring.Writer

Kieker.workflow.monitoring.ode.Probe

Kiel, 23.03.2012 36

> Provenienz-Daten Erfassung in PubFlow

‣Ablauf

Kieker Monitoring-Log / Stream

Kieker.workflow.AnalyzerKieker.workflow.Visualizer

Kieker.workflow.Space

Kieker.workflow.Preprocessor

Kieker.monitoring.Writer

Kieker.workflow.monitoring.ode.Probe

Kiel, 23.03.2012 36

> Provenienz-Daten Erfassung in PubFlow

‣Ablauf

Kieker Monitoring-Log / Stream

Kieker.workflow.AnalyzerKieker.workflow.Visualizer

Kieker.workflow.Space

Kieker.workflow.Preprocessor

Kieker.monitoring.Writer

Kieker.workflow.monitoring.ode.Probe

Kiel, 23.03.2012 36

> Provenienz-Daten Erfassung in PubFlow

‣Ablauf

Kieker Monitoring-Log / Stream

Kieker.workflow.AnalyzerKieker.workflow.Visualizer

Kieker.workflow.Space

Kieker.workflow.Preprocessor

Kieker.monitoring.Writer

Kieker.workflow.monitoring.ode.Probe

Kiel, 23.03.2012 36

> Provenienz-Daten Erfassung in PubFlow

‣Ablauf

Kieker Monitoring-Log / Stream

Kieker.workflow.AnalyzerKieker.workflow.Visualizer

Kieker.workflow.Space

Kieker.workflow.Preprocessor

Kieker.monitoring.Writer

Kieker.workflow.monitoring.ode.Probe

Kiel, 23.03.2012 36

> Provenienz-Daten Erfassung in PubFlow

‣Ablauf

Kieker Monitoring-Log / Stream

Kieker.workflow.AnalyzerKieker.workflow.Visualizer

Kieker.workflow.Space

Kieker.workflow.Preprocessor

Kieker.monitoring.Writer

Kieker.workflow.monitoring.ode.Probe

Kiel, 23.03.2012 36

> Provenienz-Daten Erfassung in PubFlow

‣Ablauf

Kieker Monitoring-Log / Stream

Kieker.workflow.AnalyzerKieker.workflow.Visualizer

Kieker.workflow.Space

Kieker.workflow.Preprocessor

Kieker.monitoring.Writer

Kieker.workflow.monitoring.ode.Probe

Kiel, 23.03.2012 36

> Provenienz-Daten Erfassung in PubFlow

‣Ablauf

Kieker Monitoring-Log / Stream

Kieker.workflow.AnalyzerKieker.workflow.Visualizer

Kieker.workflow.Space

Kieker.workflow.Preprocessor

Kieker.monitoring.Writer

Kieker.workflow.monitoring.ode.Probe

Kiel, 23.03.2012 36

> Provenienz-Daten Erfassung in PubFlow

‣Ablauf

Kieker Monitoring-Log / Stream

Kieker.workflow.AnalyzerKieker.workflow.Visualizer

Kieker.workflow.Space

Kieker.workflow.Preprocessor

Kieker.monitoring.Writer

Kieker.workflow.monitoring.ode.Probe

Kiel, 23.03.2012 36

> Provenienz-Daten Erfassung in PubFlow

‣Ablauf

Kieker Monitoring-Log / Stream

Kieker.workflow.AnalyzerKieker.workflow.Visualizer

Kieker.workflow.Space

Kieker.workflow.Preprocessor

Kieker.monitoring.Writer

Kieker.workflow.monitoring.ode.Probe

Kiel, 23.03.2012 36

> Provenienz-Daten Erfassung in PubFlow

‣Ablauf

Kieker Monitoring-Log / Stream

Kieker.workflow.AnalyzerKieker.workflow.Visualizer

Kieker.workflow.Space

Kieker.workflow.Preprocessor

Kieker.monitoring.Writer

Kieker.workflow.monitoring.ode.Probe

Kiel, 23.03.2012 36

> Provenienz-Daten Erfassung in PubFlow

‣Ablauf

Kieker Monitoring-Log / Stream

Kieker.workflow.AnalyzerKieker.workflow.Visualizer

Kieker.workflow.Space

Kieker.workflow.Preprocessor

Kieker.monitoring.Writer

Kieker.workflow.monitoring.ode.Probe

Kiel, 23.03.2012 36

> Provenienz-Daten Erfassung in PubFlow

‣Ablauf

Kieker Monitoring-Log / Stream

Kieker.workflow.AnalyzerKieker.workflow.Visualizer

Kieker.workflow.Space

Kieker.workflow.Preprocessor

Kieker.monitoring.Writer

Kieker.workflow.monitoring.ode.Probe

Kiel, 23.03.2012 36

> Provenienz-Daten Erfassung in PubFlow

‣Ablauf

Kieker Monitoring-Log / Stream

Kieker.workflow.AnalyzerKieker.workflow.Visualizer

Kieker.workflow.Space

Kieker.workflow.Preprocessor

Kieker.monitoring.Writer

Kieker.workflow.monitoring.ode.Probe

Kiel, 23.03.2012 36

> Provenienz-Daten Erfassung in PubFlow

‣Ablauf

Kieker Monitoring-Log / Stream

Kieker.workflow.AnalyzerKieker.workflow.Visualizer

Kieker.workflow.Space

Kieker.workflow.Preprocessor

Kieker.monitoring.Writer

Kieker.workflow.monitoring.ode.Probe

Kiel, 23.03.2012 36

> Provenienz-Daten Erfassung in PubFlow

‣Ablauf

Kieker Monitoring-Log / Stream

Kieker.workflow.AnalyzerKieker.workflow.Visualizer

Kieker.workflow.Space

Kieker.workflow.Preprocessor

Kieker.monitoring.Writer

Kieker.workflow.monitoring.ode.Probe

Kiel, 23.03.2012 37

> Ausblick

Ausblick

Kiel, 23.03.2012 38

> Ausblick

‣Export der Provenienz-Daten in das Open Provenance Model

Kiel, 23.03.2012 39

> Ausblick

‣Konfigurierbarkeit der Profile zur Laufzeit

Kiel, 23.03.2012 40

> Ausblick

‣Grafische Darstellung der Provenienz-Daten

Kiel, 23.03.2012 41

> Daten und ihre Provenienz

PubFlow

‣Definition von Scientific Workflows zur Produktivitätssteigerung / Arbeitserleichterung‣Erfassung von Provenienz-Daten

durch Workflow-Monitoring‣Konfiguration des Monitorings durch

Profile und Extensions