Reinhard Altenhöner

Post on 02-Feb-2016

39 views 0 download

description

1. Reinhard Altenhöner. Kollaboration durch das Semantic Web: Strategie und Aktivitäten der Deutschen Nationalbibliothek SWIB 2010 Köln, 29.11.2010 mit herzlichem Dank an die Kollegen A.Haffner, S. Hartmann, J.Hannemann, J.Hauser, J.Kett, L.Svensson. 2. ToC. Ausgangspunkt und Motivation - PowerPoint PPT Presentation

transcript

1

Kollaboration durch das Semantic Web: Strategie und Aktivitäten der Deutschen Nationalbibliothek

SWIB 2010Köln, 29.11.2010

mit herzlichem Dank an die Kollegen

A.Haffner, S. Hartmann, J.Hannemann, J.Hauser, J.Kett, L.Svensson

Reinhard Altenhöner

2

ToC

Ausgangspunkt und Motivation

Aktivitäten und Ziele

Weitere Planungen / Entwicklung

Zusammenfassung / Perspektiven

| Reinhard Altenhöner|SWIB 2010 | 29.11.2010

1. Ausgangspunkt(e) und Motivation

| Reinhard Altenhöner| SWIB 2010 | 29.11.2010 3

Punkt 1: (Norm)datenPersonen, Körperschaften, Sachschlagwörter = Gemeinsame Normdatei

4

GND

PND SWD GKD

DDC

| Reinhard Altenhöner| SWIB 2010 | 29.11.2010

Beispiel:

| Reinhard Altenhöner| SWIB 2010 | 29.11.2010 5

Die Innensicht: PICA+

6 | Reinhard Altenhöner| SWIB 2010 | 29.11.2010

Punkt 2Linked Open Data: Die Prinzipien

1. Use URIs (Unique Ressource Identifiers) as names for things

2. Use HTTP URIs so that people can look up and reference those things.

3. When someone looks up a URI, provide useful information, using the standards (RDF, SPARQL)

4. Include links to other, related URIs, so that users can discover more things

(Tim Berners-Lee, 2007)

| Reinhard Altenhöner| SWIB 2010 | 29.11.2010 7

Ein Verfahren zum Veröffentlichen,

Austauschen

und Verknüpfen von Daten im World Wide Web

Einfaches und praxisorientiertes Grundprinzip (kein „Standard“, sondern Best-Practices)

Bedingungen:- Zitierbarkeit und Transparenz

- Persistenz von Daten und Ressourcen

- Nützlich: Sichtbarkeit der Urheberschaft von Daten, Änderungshistorie

Global vernetzt: domänenübergreifend (Recherche, Entstehung und Anreicherung von Daten)

Linked Data: Das Konzept

8 | Reinhard Altenhöner| SWIB 2010 | 29.11.2010

Zusammenfassung: Ausgangslage

Muse

en

Arch

ive

Bib

lio-

theke

n...

...

...

Verla

ge

...

9

Mangelware:

Interoperabilität der Daten

Datentausch

Kooperative Datenpflege

Integrierte, übergreifende Dienstleistungen

Präsenz im WWW

Positiv:

Gut gepflegte, relevante Datenbestände

| Reinhard Altenhöner| SWIB 2010 | 29.11.2010

Lösungsansatz „Linked Data“

Weltweite Datenbank aus vernetzten Daten

Muse

en

Arch

ive

Bib

lio-

theke

n...

...

...

Verla

ge

...

10 | Reinhard Altenhöner| SWIB 2010 | 29.11.2010

| 28 | Normdateien als Linked Data | 23. September 2010

Linked Data heute: Bibliotheksdaten sind drin

11

2. Aktivitäten und Ziele

12 | Reinhard Altenhöner| SWIB 2010 | 29.11.2010

Bibliotheken, Museen und Archive sind integraler Bestandteil des Semantic Web

Sie geben ihm die nötige Verlässlichkeit und Stabilität

Unsere Vision: Global Cultural Graph

Sie sind Stützen für das Netz der Kultur und der Wissenschaft

13 | Reinhard Altenhöner| SWIB 2010 | 29.11.2010

Linked Data Service

Projekt „Linked Data“ (10/2009 – 05/2010): Inbetriebnahme eines Beta-Services

Erster Kontakt mit der Semantic-Web-Community

Erfahrungsaustausch mit den Nutzern

Projekt „Linked Data 2“ (07/2010 – 12/2010) Bessere Skalierbarkeit

Neue Datasets, mehr Verlinkung

Suchschnittstellen

LD als vollwertiger Dienst

14 | Reinhard Altenhöner| SWIB 2010 | 29.11.2010

15

Linked Data. Vorläufige Erkenntnisse

Datenmodellierung ist komplex

Etablierte Ontologien bilden unsere Daten nicht vollständig ab Verwendung von geeigneten Teilen Ergänzung um spezielle Properties, aber: Risiko

Modellierung in RDA, SKOS, etc.

| Reinhard Altenhöner| SWIB 2010 | 29.11.2010

Für Körperschaften und Personen: Mischung aus RDA und eigenem Vokabular

16

http://d-nb.info/gnd/11855042X

gnd:preferredNameForThePerson

“1877“ “1966”

rdaGr2:dateOfBirth

rdaGr2:dateOfDeath

“RAK-WB“

“Hesse“ “Hermann“

gnd:usedRulesgnd:surname

gnd:foreName

owl:sameAs

http://dbpedia.org/resource/Hermann_Hesse

http://d-nb.info/gnd/118609920

rdaRelGr2:relatedPersonPerson

http:// RDVocab.info/termList/ge

nder/1002

rdaGr2:gender

http://marccodes.heroku.com/languages/ger

rdaGr2:languageOfThePerson

| Reinhard Altenhöner| SWIB 2010 | 29.11.2010

SWD und DDC mit SKOS

17

http://d-nb.info/gnd/4042855-2

skos:Concept„Nymphensittich“@de „Nymphicus

hollandicus“@lat

http://d-nb.info/gnd/4239774-1

Normdatei Authority file

rdfs:type skos:prefLabelskos:altLabel

skos:broader

skos:prefLabel skos:altLabel

dnb:CoordinatedConcept

dnb-ddc: 598.71

rdfs:type

dnb-sg:590

rdfs:subclassOfdnb:coordination-of

dnb:coordination-of

dnb:det2match

| Reinhard Altenhöner| SWIB 2010 | 29.11.2010

Verlinkungen zu LCSH, Rameau, VIAF und DBPedia

18

DNB

VIAF

DBPedia

LCSH

Rameau

| Reinhard Altenhöner| SWIB 2010 | 29.11.2010

Aktueller Stand: LD Daten

19

BETA Service

Normdaten: Individualisierte Personen (PND) 1.797.911

Sachschlagworte (SWD) 187,743

Körperschaften (GKD) 1.320.711

DDC-Klassen 51.748

Links: PND → SWD (Beruf) 1.059.570

Verknüpfungen zu: Wikipedia 123.569

DBpedia 40.136

VIAF 1.786.975

LCSH 37.547

RAMEAU 28.249

Tripel 40.192.561

| Reinhard Altenhöner| SWIB 2010 | 29.11.2010

Aktueller Stand: Einbindung ins Portal

20 | Reinhard Altenhöner| SWIB 2010 | 29.11.2010

Aktueller Stand: Technik

21

Apache TomcatApache Tomcat

SPARQL (HTTP-Binding)

ConversionTools

ConversionTools

Jena API

CBSCBS RdfExporterRdfExporter

JosekiJosekiIndexIndex

TDB FileTDB File

Jena API

TDBTDB

TDBTDB

read/write

read

| Reinhard Altenhöner| SWIB 2010 | 29.11.2010

22

Aktueller Stand: Nachnutzung (Beispiele)

TU Braunschweig: Durchsuchbare Datenbank der Normdaten mit Webinterface

„Pressemappe 20. Jahrhundert“ der ZBW

Museumsverband: Anreicherung einer Website für Museumsstück

Rückführung unserer MACS-Mappings nach RAMEAU (und verm. LCSH)

Erfahrungsaustausch mit verschiedenen Bibliotheken und Institutionen

| Reinhard Altenhöner| SWIB 2010 | 29.11.2010

Nachnutzung: Beispiele

23| Reinhard Altenhöner| SWIB 2010 | 29.11.2010

Aktivitäten der DNB im Überblick – nächste Schritte

Projekt / Aktivität Zweck

Linked Data Publikation von Titeldaten Ausweitung verknüpfter Datenbestände

Neukonzeption der DNB-Geschäftsmodelle

Klare Ausrichtung auf das WWW und seine impliziten Anforderungen (Lizenz)

URN / CG Verlässlichkeit Persistenz / Zitierfähigkeit

PersID / ECON Europäischer Kontext Bessere Sichtbarkeit

CONTENTUS / DDB Semantische multimediale Suche Automatische Erschließung

Regelwerke (RDA) Werkdatei Kumulativ-kooperative Erschließung

24 | Reinhard Altenhöner| SWIB 2010 | 29.11.2010

CG

| Reinhard Altenhöner| SWIB 2010 | 29.11.2010 25

Digitization

1 Automatic quality analysis & optimization

2Automatic content context analysis

&

Face

3

Logo

Text Person

Voice, music…

Semi- automatic semantic linking

4

Knowledge Base

5 Open knowledge network

Multimedia search & access

6

FilmInformation about actors, director, producers, music, sequence, year of production. Short description of the picture, video sequence…What is in the film, rights.Any other relevant information as short summary of content for fast access…

Related booksYear of printing, editions, authors, summary of the book….

Related internet linksYear of printing, editions, authors, summary of the book….

Related music scoreYear of printing, editions, authors, summary of the book….

Related films Year of printing, editions, authors, summary of the book….

Related songsYear of printing, editions, authors, summary of the book….

Related newsYear of printing, editions, authors, summary of the book….

??

Manage, search, retrieve, reuse, …

26

Die Contentus-Prozesskette

| Reinhard Altenhöner| SWIB 2010 | 29.11.2010

Entity RecognitionStrukturerkennung / SequenzanalysenInterferenzen Semantische Multimediasuche

26

3. Weitere Planungen / Entwicklung

27 | Reinhard Altenhöner| SWIB 2010 | 29.11.2010

28

PNDPND DNB-TitelDNB-Titel HBZ-TitelHBZ-Titel

WWW

… DeutschesFilmarchiv

DeutschesFilmarchiv

Kleinere Museen

Kleinere Museen

Kleinere Archive

Kleinere Archive

Kleinere Bibliotheken

Kleinere Bibliotheken

Daten sind veröffentlicht.Und jetzt?

| Reinhard Altenhöner| SWIB 2010 | 29.11.2010

29

PNDPND DNB-TitelDNB-Titel HBZ-TitelHBZ-Titel … DeutschesFilmarchiv

DeutschesFilmarchiv

Kleinere Museen

Kleinere Museen

Kleinere Archive

Kleinere Archive

Kleinere Bibliotheken

Kleinere Bibliotheken

Web-SuchmaschineWeb-Suchmaschine

Suchmaschinen? Wirklich?

Unverknüpfte Dubletten

hunderte URIs für dieselbe Ressource

Anbindung kleinerer Einrichtungen

| Reinhard Altenhöner| SWIB 2010 | 29.11.2010

30

PNDPND DNB-TitelDNB-Titel HBZ-TitelHBZ-Titel

WWW

… DeutschesFilmarchiv

DeutschesFilmarchiv

Kleinere Museen

Kleinere Museen

Kleinere Archive

Kleinere Archive

Kleinere Bibliotheken

Kleinere Bibliotheken

culturegraph.orgculturegraph.org

culturegraph.org

| Reinhard Altenhöner| SWIB 2010 | 29.11.2010

Zusammenfassung / Perspektiven

31

Linked Data ist der Quasistandard für Datenveröffentlichung und Datenaustausch im WWW

Es geht um Verlinkung und Interoperabilität

LD ist bereits domänen-übergreifend

Vertrauenswürdigkeit

Langfristig unverzichtbar: offene Lizenz!

Beschäftigung mit RDF / geeigneten Ontologien

Kooperation und Koordination

| Reinhard Altenhöner| SWIB 2010 | 29.11.2010

Fragen?

32 | Reinhard Altenhöner| SWIB 2010 | 29.11.2010