+ All Categories
Home > Software > Validierung, Tools und Plugins - Workflowoptimierung durch Automatisierung

Validierung, Tools und Plugins - Workflowoptimierung durch Automatisierung

Date post: 11-Apr-2017
Category:
Upload: intranda-gmbh
View: 291 times
Download: 0 times
Share this document with a friend
43
13.09.2016 Mathias Geerdsen, intranda GmbH 1 Validierung, Tools und Plugins Workflowoptimierung durch Automatisierung 3. intranda Goobi Tag
Transcript

13.0

9.20

16M

ath

ias

Gee

rdse

n, i

ntr

and

a G

mb

H

1

Validierung, Tools und Plugins Workflowoptimierung durch Automatisierung

3. intranda Goobi Tag

13.0

9.20

16M

ath

ias

Gee

rdse

n, i

ntr

and

a G

mb

H

2

Ausgangssituation

13.0

9.20

16M

ath

ias

Gee

rdse

n, i

ntr

and

a G

mb

H

3

Workflow

Input Verarbeitung Output

13.0

9.20

16M

ath

ias

Gee

rdse

n, i

ntr

and

a G

mb

H

4

Ziele

● Fehler frühzeitig erkennen / korrigieren / vorbeugen

– Dateinamen

– fehlerhafte Bilder oder Metadaten

– Bilddaten die nicht den Vorgaben entsprechen

13.0

9.20

16M

ath

ias

Gee

rdse

n, i

ntr

and

a G

mb

H

5

Ziele

● Fehler frühzeitig erkennen / korrigieren / vorbeugen

– Dateinamen

– fehlerhafte Bilder oder Metadaten

– Bilddaten die nicht den Vorgaben entsprechen

● Aufwand reduzieren

– Konzentration auf eigentliche Kompetenzen

13.0

9.20

16M

ath

ias

Gee

rdse

n, i

ntr

and

a G

mb

H

6

Ziele

● Fehler frühzeitig erkennen / korrigieren / vorbeugen

– Dateinamen

– fehlerhafte Bilder oder Metadaten

– Bilddaten die nicht den Vorgaben entsprechen

● Aufwand reduzieren

– Konzentration auf eigentliche Kompetenzen

● Systemauslastung gestalten

– Lastspitzen durch parallele Ausführung

– rechenintensive Schrite

13.0

9.20

16M

ath

ias

Gee

rdse

n, i

ntr

and

a G

mb

H

7

Lösungsansätze

● Validierung

● Automatisierung von Aufgaben

● Lastverteilung

13.0

9.20

16M

ath

ias

Gee

rdse

n, i

ntr

and

a G

mb

H

8

Datenquellen Input

13.0

9.20

16M

ath

ias

Gee

rdse

n, i

ntr

and

a G

mb

H

9

Harvesting

● externe Datenquellen automatisiert abfragen

13.0

9.20

16M

ath

ias

Gee

rdse

n, i

ntr

and

a G

mb

H

10

Harvesting

● externe Datenquellen automatisiert abfragen

● z.B. Anfragen an OAI-PMH Schnitstellen oder Internet Archive

13.0

9.20

16M

ath

ias

Gee

rdse

n, i

ntr

and

a G

mb

H

11

Harvesting

● externe Datenquellen automatisiert abfragen

● z.B. Anfragen an OAI-PMH Schnitstellen oder Internet Archive

13.0

9.20

16M

ath

ias

Gee

rdse

n, i

ntr

and

a G

mb

H

12

FTP Upload

13.0

9.20

16M

ath

ias

Gee

rdse

n, i

ntr

and

a G

mb

H

13

FTP Upload

● Bereitstellung eines FTP Zugangs für externe Datenlieferungen

13.0

9.20

16M

ath

ias

Gee

rdse

n, i

ntr

and

a G

mb

H

14

FTP Upload

● Bereitstellung eines FTP Zugangs für externe Datenlieferungen

● automatische Übernahme der Bilddaten in vorhandene Vorgänge

13.0

9.20

16M

ath

ias

Gee

rdse

n, i

ntr

and

a G

mb

H

15

FTP Upload

● Bereitstellung eines FTP Zugangs für externe Datenlieferungen

● automatische Übernahme der Bilddaten in vorhandene Vorgänge

● teilweise Übernahme von mitgelieferten Metadaten

13.0

9.20

16M

ath

ias

Gee

rdse

n, i

ntr

and

a G

mb

H

16

FTP Upload

● Bereitstellung eines FTP Zugangs für externe Datenlieferungen

● automatische Übernahme der Bilddaten in vorhandene Vorgänge

● teilweise Übernahme von mitgelieferten Metadaten

● mögliche Sicherheitsmaßnahmen:

– separates System

– Virenscan

– Quarantänebereich

13.0

9.20

16M

ath

ias

Gee

rdse

n, i

ntr

and

a G

mb

H

17

Datenverarbeitung Verarbeitung

13.0

9.20

16M

ath

ias

Gee

rdse

n, i

ntr

and

a G

mb

H

18

Validierung der Dateinamen

● Kontrolle der Dateinamen in Bildordnern an Hand eines regulären Ausdruckes, bereits im Arbeitsschrit

13.0

9.20

16M

ath

ias

Gee

rdse

n, i

ntr

and

a G

mb

H

19

Validierung der Dateinamen

● Kontrolle der Dateinamen in Bildordnern an Hand eines regulären Ausdruckes, bereits im Arbeitsschrit

13.0

9.20

16M

ath

ias

Gee

rdse

n, i

ntr

and

a G

mb

H

20

Bildvalidierung

● Validierung mitels jpylyzer und JHOVE

http://jhove.openpreservation.org/ http://jpylyzer.openpreservation.org/

13.0

9.20

16M

ath

ias

Gee

rdse

n, i

ntr

and

a G

mb

H

21

Bildvalidierung

● Validierung mitels jpylyzer und JHOVE

● Sicherung des generierten Outputs im Dateisystem

http://jhove.openpreservation.org/ http://jpylyzer.openpreservation.org/

13.0

9.20

16M

ath

ias

Gee

rdse

n, i

ntr

and

a G

mb

H

22

Bildvalidierung

● Validierung mitels jpylyzer und JHOVE

● Sicherung des generierten Outputs im Dateisystem

● Prüfung gegen Vorgaben/Profile

http://jhove.openpreservation.org/ http://jpylyzer.openpreservation.org/

13.0

9.20

16M

ath

ias

Gee

rdse

n, i

ntr

and

a G

mb

H

23

Bildvalidierung - JHOVE

● Format:

<format>TIFF</format>

● Validität:

<status>Well-Formed and valid</status>

● Farbraum:

<mix:colorSpace>2</mix:colorSpace>

● Komprimierung:

<mix:compressionScheme>7</mix:compressionScheme>

● Auflösung – Liste möglicher Werte oder auch Intervall

13.0

9.20

16M

ath

ias

Gee

rdse

n, i

ntr

and

a G

mb

H

24

Qualitätssicherung

● Kontrolle der Bilddaten innerhalb der Goobi-Oberfläche

● ggf. Korrektur der Orientierung, Entfernen von Dateien, ...

13.0

9.20

16M

ath

ias

Gee

rdse

n, i

ntr

and

a G

mb

H

25

13.0

9.20

16M

ath

ias

Gee

rdse

n, i

ntr

and

a G

mb

H

26

Prozessierung

13.0

9.20

16M

ath

ias

Gee

rdse

n, i

ntr

and

a G

mb

H

27

Prozessierung

● nur ein Skript pro Workflowschrit

→ erleichtert die Fehlersuche

13.0

9.20

16M

ath

ias

Gee

rdse

n, i

ntr

and

a G

mb

H

28

Prozessierung

● nur ein Skript pro Workflowschrit

→ erleichtert die Fehlersuche

● Verbesserung der verwendeten Tools

– Optimierung der Skripte

– Konvertierung mitels GraphicsMagick

13.0

9.20

16M

ath

ias

Gee

rdse

n, i

ntr

and

a G

mb

H

29

Validierung von Metadaten

13.0

9.20

16M

ath

ias

Gee

rdse

n, i

ntr

and

a G

mb

H

30

Validierung von Metadaten

● Vorgabemöglichkeit für einzelne Datenfelder im Regelsatz, z.B.

– Datumsfelder <validationExpression> \d{4}(-\d{2}){0,2} </validationExpression>

– reine Zahlenwerte <validationExpression> \d+ </validationExpression>

– …

● Frühzeitige Erkennung von falsch formatierten Eingaben, vor Sichtbarkeit in der Präsentation oder Fehlermeldung bei der Indexierung (z.B. muss BandNr-Sortierung eine Zahl sein)

13.0

9.20

16M

ath

ias

Gee

rdse

n, i

ntr

and

a G

mb

H

31

Input Verarbeitung

13.0

9.20

16M

ath

ias

Gee

rdse

n, i

ntr

and

a G

mb

H

32

Input Verarbeitung

13.0

9.20

16M

ath

ias

Gee

rdse

n, i

ntr

and

a G

mb

H

33

Export Output

13.0

9.20

16M

ath

ias

Gee

rdse

n, i

ntr

and

a G

mb

H

34

individuelle Exporte

● Exportplugins in Goobi ermöglichen individuellen Output

● verschiedene TaskManager Plugins für Ingests

● intranda viewer

● SDB/Preservica

● Roseta

● MyCoRe

13.0

9.20

16M

ath

ias

Gee

rdse

n, i

ntr

and

a G

mb

H

35

Lastverteilung Verarbeitung Output

13.0

9.20

16M

ath

ias

Gee

rdse

n, i

ntr

and

a G

mb

H

36

Auslagerung

● TaskManager erlaubt die Ausführung in einer Warteschlange

→ kontinuierliche Abarbeitung stat Lastspitzen

13.0

9.20

16M

ath

ias

Gee

rdse

n, i

ntr

and

a G

mb

H

37

Auslagerung

● TaskManager erlaubt die Ausführung in einer Warteschlange

→ kontinuierliche Abarbeitung stat Lastspitzen

● Ausführung auf einem anderen Server

→ Minimierung rechenintensiver Tätigkeiten auf Goobi System

13.0

9.20

16M

ath

ias

Gee

rdse

n, i

ntr

and

a G

mb

H

38

Auslagerung

● TaskManager erlaubt die Ausführung in einer Warteschlange

→ kontinuierliche Abarbeitung stat Lastspitzen

● Ausführung auf einem anderen Server

→ Minimierung rechenintensiver Tätigkeiten auf Goobi System

● Kontrolle über einzelne Warteschlangen

– Anzahl paralleler Jobs pro Warteschlange konfigurierbar

– Warteschlangen können pausiert werden

13.0

9.20

16M

ath

ias

Gee

rdse

n, i

ntr

and

a G

mb

H

39

13.0

9.20

16M

ath

ias

Gee

rdse

n, i

ntr

and

a G

mb

H

40

TaskManager

● mitlerweile sehr viele unterschiedliche Nutzungen:

– Download aus dem Internet Archive

– Bildkonvertierung (JPEG / JPEG2000)

– Bildvalidierung

– LayoutWizzard

– OCR

– PDF Erzeugung

– Normdatenerkennung

– MyCore, Roseta, SDB/Preservica

● Schwerpunkt: lang laufende und/oder rechenintensive Aufgaben

13.0

9.20

16M

ath

ias

Gee

rdse

n, i

ntr

and

a G

mb

H

41

Zusammenfassung

13.0

9.20

16M

ath

ias

Gee

rdse

n, i

ntr

and

a G

mb

H

42

Zusammenfassung

● Harvester

● FTP-UploadInput

Verarbeitung

Output

● Validierung von Dateinamen, Bilddateien, Metadatenfeldern

● QA Plugin

● serielle Abarbeitung

● Auslagerung von Arbeitsschriten

● Goobi Export Plugins

● TaskManager Plugins für Ingests

13.0

9.20

16M

ath

ias

Gee

rdse

n, i

ntr

and

a G

mb

H

43

Input Verarbeitung Output


Recommended