Post on 16-Jan-2015
description
transcript
Metadatenfür Medienarchive
Dr. Harald SackHasso-Plattner-Institut Softwaresystemtechnik GmbH
Universität Potsdam09. April 2014
Mittwoch, 9. April 14
2
Metadaten für MedienarchiveDr. Harald Sack
• 1990 Dipl.-Inform., Universität der Bundeswehr, München• 2002 Dr. rer. nat., Universität Trier• 2003 PostDoc, Universität Jena• 2009 Senior Researcher, Hasso Plattner Institut, Universität Potsdam
Mittwoch, 9. April 14
http://hpi.uni-potsdam.de/
Hasso Plattner Institute für IT Systems EngineeringUniversität Potsdam
Mittwoch, 9. April 14
• Research Topics• Semantic Web Technologies• Knowledge Engineering• Knowledge Mining• Multimedia Analysis & Retrieval• Information Retrieval• Data/Information Visualization
• Research Projects:
Hasso Plattner Institut für IT Systems EngineeringSemantic Technologies & Multimedia Retrieval Research Group
Mittwoch, 9. April 14
5
http://www.yovisto.com/
Mittwoch, 9. April 14
http://semex.hpi.uni-potsdam.de/semex/
Mittwoch, 9. April 14
7
C. Hentschel, H. Sack, et al., Open up cultural heritage in video archives with mediaglobe, I2CS 2012
http://semex.hpi.uni-potsdam.de/semex/
Mittwoch, 9. April 14
Mittwoch, 9. April 14
Kurze Vorstellungsrunde
• Name, Organisation
• Erfahrung(en) mit Metadaten?
• Erwartung(en) an das Seminar?
Mittwoch, 9. April 14
Metadaten für Medienarchive
Mittwoch, 9. April 14
Metadaten für Medienarchive
Agenda
•Einführung ins Thema
•Metadatenstandards
•semantische Metadaten
•Linked (Open) Data
•Beispiele
Mittwoch, 9. April 14
Mittwoch, 9. April 14
13
Wie kann ich etwas finden...?Mittwoch, 9. April 14
14
Wie kann ich etwas wiederfinden...?Mittwoch, 9. April 14
Turmbau zu Babel, Pieter Brueghel, 1563
Wie beschaffen wir uns eigentlich Informationen....?
Mittwoch, 9. April 14
Turmbau zu Babel, Pieter Brueghel, 1563
16
•Wie beschaffen wir uns eigentlich Informationen über Dinge?
•...über abstrakte Konzepte?
•...etwa über ein Buch?
ⓒ Harald Sack
•...über einen Film?
ⓒ Friedrich Murnau Stiftung
Information und wie man sie findet
Mittwoch, 9. April 14
17
Wir schlagen einfach unter dem jeweiligen NAMEN nach...
Mittwoch, 9. April 14
18
•...Wir schlagen einfach unter den entsprechenden Namen nach
„Rache / Revenge“„Brave New World“
ⓒ Harald Sack
„Der blaue Engel“
ⓒ Friedrich Murnau Stiftung
Information und wie man sie findet
Mittwoch, 9. April 14
19
Brave New World
siehe auch Schöne neue Welt Welt wohin? : ein Roman der Zukunft
Wackere neue Welt : ein Roman der Zukunft
kontrolliertes Vokabular
Information und wie man sie findet•...früher ging man in die Bibliothek
Mittwoch, 9. April 14
20
Information und wie man sie findet•...früher ging man in die Bibliothek
Brave New World. - Aldous H U X L E Y. - The Albatros Continental Library, 47 (Hamburg usw., Albatros Verlag, 1933) 257 S. 8“
II 1, 2506, 34548
Metadaten
Identifier/Locator
Mittwoch, 9. April 14
21
Information und wie man sie findet
http://www.worldcat.org
•...heute geht man ins WWW
Mittwoch, 9. April 14
22
Information und wie man sie findet
http://www.worldcat.org
•...heute geht man ins WWW
Mittwoch, 9. April 14
Wie finde ich etwas in einem Medienarchiv?
Mittwoch, 9. April 14
24Was sind
Metadaten?
Mittwoch, 9. April 14
25„Metadaten sind Daten, die Informationen über andere Daten enthalten“ und „Metadaten werden benötigt, um in der Lage zu sein, einen bestimmten Zweck zu erfüllen (oder) ein bestimmtes Ergebnis zu erreichen“ (informelle Definition, Wikipedia)
„Metadaten sind strukturierte, kodierte Daten, die Charakteristika informationstragender Entitäten beschreiben, zum Zweck der Identifikation, Recherche, Beurteilung und der Verwaltung der damit beschriebenen Entitäten.“ (W.R. Durell, 1985)
„Metadaten sind maschinenlesbare Informationen über elektronische Ressourcen oder andere Dinge“ (W3C)
Metadaten
Mittwoch, 9. April 14
Warum Metadaten?• Zugang zu Informationen/Objekten ermöglichen• Automatische Verarbeitung• Interoperabilität• Datenaustausch und Datenintegration• Sichtbarkeit erhöhen
(z.B. Search Engine Optimization)• ...
Mittwoch, 9. April 14
•Einfaches Beispiel:bibliografische Metadaten
27
Identifikation überISBN / ISSNAutor(en)Titel...
Klassifikation überKategorienSchlüsselwörterAbstract / Zusammenfassung...
Mittwoch, 9. April 14
Metadatenarten
28
Grundlegende Metadatenarten im Dokumentenmanagement. vgl. Schütz (2004) Dokumentenmanagement S. 340.
Mittwoch, 9. April 14
Metadatenarten
29
Formen von Metadaten. vgl. Stock (2008) Wissensrepräsentation S. 123 ff.
Mittwoch, 9. April 14
Charakteristika von Metadaten
30
Charakteristika und Eigenschaften von Metadaten. vgl. Gilliland (2008) Setting the Stage S. 9 ff.
Mittwoch, 9. April 14
Funktionale Einteilung von Metadaten
31
kashyap und Sheth (1998)
Mittwoch, 9. April 14
Ausprägungsformen von Metadaten32
• strukturierte Metadaten• strukturierte typisierte Metadaten• unstrukturierte Metadaten• semantische Metadaten bzw.
semantisch annotierte Metadaten• autoritative Metadaten• nicht-autoritative Metadaten• kollaborativ erstellte Metadaten• ...
Mittwoch, 9. April 14
33
• Title: Namen des Objekts. • Creator: Personen, Organisationen oder Dienste, die in erster Linie für den Inhalt des Objekts verantwortlich sind, z.B. Autorinnen oder Autoren. • Subject: Thema (topic) des Objekts, typischerweise Stichwörter, Deskriptoren oder Elemente eines Klassifikationssystems. • Description: Beschreibung des Inhalts des Objekts als Text, z.B. als Abstract oder Inhaltsverzeichnis. • Publisher: Personen oder Organisationen, die dafür verantwortlich sind, das Objekt zugänglich zu machen. • Contributor: Personen oder Organisationen, die wesentliche Beiträge zum Inhalt des Objekts geleistet haben, aber nicht unter Creator genannt sind (Herausgebende, Übersetzerinnen, Illustratoren).
....
Strukturierte Metadaten
•bestehen aus Name-Werte Paaren (Autor = “Böll, Heinrich“)
•sind typisiert (Feld “Autor“ ist vom Typ Zeichenkette)
•Semantik strukturierter Daten beruht auf gemeinsamer Vereinbarung (z.B. Standardisierung bei Dublin Core)
Mittwoch, 9. April 14
34
Tierreich (Animalia)
Wirbeltiere
Mensch (Homo)
Moderner Mensch (Homo sapiens)
Menschenartige (Hominidae)
Primaten
Säugetiere (Mammaliae)
Mehrzeller (Eukaria)
Strukturierte Metadaten
•können hierarchisch strukturiert werden (Taxonomie)
Tierreich (AnimaliaWirbeltiere
Mensch (Homo)
Moderner Mensch (Homo sapiens)
Menschenartige (Hominidae)
Primaten
Säugetiere (Mammaliae)
Mehrzeller (Eukaria)
Mittwoch, 9. April 14
35
Hauptklassen000 Inf.-Wiss., allg. Werke100 Philosophie200 Religion300 Sozialwissenschaften400 Sprachen500 Naturwissenschaften600 Technik (Angew. Wiss.)700 Künste800 Literatur900 Geschichte
DDC 23 (2011)•4 Bände•4000 Seiten•45.000 Klassen•96.000 Registerbegriffe
DDC 1 (1876)•44 Seiten
Strukturierte Metadaten
• Klassifikationssystemez.B. Dewey Decimal System
Mittwoch, 9. April 14
Unstrukturierte Metadaten
• als unstrukturierte Metadaten werden textuelle Metadaten bezeichnet, deren Semantik nicht durch vorherige Vereinbarung festgelegt ist, sondern durch ihren (natürlichsprachlichen) Inhalt.
• Bsp.: Inhaltsangabe/abstract
36
Über die Entstehung der Arten von Charles Darwin (englisch: On the Origin of Species), veröffentlicht am 24. November 1859, ist ein wissenschaft l iches Buch, das als grundlegendes Werk der Evolutionsbiologie gilt. Sein vollständiger Titel lautet: On the Origin of Species by Means of Natural Selection, or the Preservation of Favoured Races in the Struggle for Life. Als 1872 die sechste Auflage, das war die letzte von Darwin selbst bearbeitete, erschien, wurde der Kurztitel zu: The Origin of Species abgeändert. Darwin stellte in seinem Buch die wissenschaftliche Theorie vor, dass sich Populationen von Lebewesen im Laufe von Generationen durch den Prozess der natürlichen Selektion evolutionär verändern. Er lieferte zahlreiche Belege für die Vorstellung, dass die Vielfalt der heute existierenden Organismen von gemeinsamen Vorfahren abstammt. Auf Darwins Reise mit der HMS Beagle in den 1830er Jahren sammelte er erste Hinweise für seine Vorstellungen und vermehrte diese später durch Experimente und wissenschaftliche Korrespondenz....
Mittwoch, 9. April 14
37
Autoritative vs. nicht-autoritative Metadaten
• Autoritative Metadatenstammen von einer zuverlässigen (autoritativen) Quelle, wie z.B. • dem Autor der Original-Daten• einem ausgewiesenen Experten
Mittwoch, 9. April 14
38
Autoritative vs. nicht-autoritative Metadaten
• Nicht-autoritative Metadatenstammen von einer prinzipiell unzuverlässigen Quelle, wie z.B.• den Benutzern• prominentes Beispiel: Social
Tagging Systeme
Mittwoch, 9. April 14
39
AutorRessource
Benutzer
autoritative Metadaten
Apfel
Frucht
Apfel
apple
Obst
Frühstück
kaufen
Kollaborative Annotation -- Social Tagging
© E.C. Publications, Inc.
nicht-autoritative Metadaten
Mittwoch, 9. April 14
40
Kollaborative Annotation -- Social Tagging
http://www.wordle.net/
Mittwoch, 9. April 14
Metadaten für Medienarchive
Agenda
•Einführung ins Thema
•Metadatenstandards
•semantische Metadaten
•Linked (Open) Data
•Beispiele
Mittwoch, 9. April 14
Standardisierung
Mittwoch, 9. April 14
Warum Standards?
Standards steigern die Effizienz • Automatisierung• Modularisierung • Qualitätssicherung• Vergleichbarkeit• Interoperabilität• ...
Mittwoch, 9. April 14
Warum Standards?
Standards können aber auch zu ungewünschter Konformität führen...Mittwoch, 9. April 14
... gibt es für fast jeden Zweck, Funktion, Domäne oder Community...
AGLS, APPM, DACS, EAC-CPF, EAD, GILS, ISAAR(CPF), ISAD(G), RAD
DTD, LCC, LCSH, MARC, MARCXML, METS, MIX, MODS,
OAI-PMH, OAIS, PB Core, PREMIS, SGML, SRU, TGM I, TGM II, TGN,
XML, XML Schema, XPath, XQuery, XSLT
AES Core Audio, Atom, CIDOC/CRM, DC, DCAM, FGDC/CSDGM, FOAF, FRAD, FRBR, FRSAD, ISO 19115, Linked Data,
OAI-ORE, QDC, RDF, RELAX NG,
RSS, SKOS, TEI, Topic Maps, VRA
Core, XOBIS
AACR2, AAT, ADL, CanCore, CDWA,
CDWA Lite, DDC, DwC, GEM,
IEEE/LOM, indecs, ISBD, KML,
MADS, MESH, METS Rights,
MPEG-7, ODRL, RDA, SMIL,
TextMD, ULAN, VSO Data
Model, XMP, XrML, Z39.50
ADL, AES Core Audio,
AES Process History, Atom, BISAC,
DIF, DIG35, DTD, FOAF, ID3, KML, Linked Data,
MathML, MO, MPEG-21 DIDL, MPEG-7, MusicXML, MXF, NewsML,
OAIS, ODRL, ONIX, Ontology for Media Resource, PRISM, RDF, RELAX NG, RSS,
SCORM, SKOS, SMIL, Topic Maps, XML, XML Schema, XMP,
XPath, XQuery, XrML, XSLT
AACR2, AGLS, CQL, DDC, FRAD, FRBR, FRSAD, GILS, ISBD, LCC, LCSH, MADS, MARC, MARC Relator Codes, MARCXML, MESH, METS, MIX, MODS, OAI-PMH, OAIS, OpenURL, PREMIS, RDA, Sears List of Subject Headings, SRU, SWAP, TEI, TextMD, TGM I, TGM II, VRA Core, XML, XML Schema, XOBIS, XPath, XSLT, Z39.50
AAT, CCO, CDWA, CDWA Lite, CIDOC/CRM, MuseumDat, SPECTRUM, TGN, ULAN` DTD, OAI-PMH, VRA
Core, XML, XMLSchema, XPath, XQuery, XSLT
AES Core Audio, AES Process History, CanCore, CCO, DC, DCAM, DTD, FGDC/CSDGM, GEM, IEEE/LOM, MEI, METS Rights, OAI-ORE, PB Core, QDC, RDF, SGML, TGN, XQuery
DC, DCAM, EML, FGDC/CSDGM, GEM, GML,
IEEE/LOM, indecs, ISO 19115, OAI-ORE, QDC, SGML, VSO Data
Model
GILS, MEI, MESH, OAI-PMH, SWAP, TEI
AGLS, CanCore, CQL, DwC, FRBR, LCSH, METS, MIX, PREMIS, SRU
APPM, Atom, CDWA, CDWA Lite, CIDOC/CRM, DACS, DwC, EAC-CPF, EAD, EML, FOAF, indecs, ISAAR(CPF), ISO 19115, Linked Data,
MPEG-21 DIDL, ONIX, RELAX NG, RSS, SKOS, Topic Maps, ULAN
AAT, ADL, DIF, ID3, ISAD(G), KML, MPEG-7, MusicXML, MXF, ODRL, RAD, SMIL, VSO Data Model, XMP, XRML
AACR2, AES Core Audio, AES Process
History, APPM, CanCore, DACS,
DDC, DwC, EAC-CPF, EAD,
FGDC/CSDGM, FRBR, GEM,
IEEE/LOM, ISAAR(CPF), ISAD(G),
ISO 19115, KML, LCC, LCSH, MADS, MARC
Relator Codes, MESH, METS, METS Rights,
MPEG-7, ODRL, PB Core, RAD, RDA,
RELAX NG, SMIL, SRU, TEI, TextMD, XMP,
XOBIS, XrML, Z39.50
Atom, DC, DCAM, FOAF, indecs, Linked Data, MIX, MODS, OAI-ORE, OAIS, PREMIS, QDC, RDF, RSS, SGML, SKOS, TGM I, TGM II, Topic Maps
Archives
Information
Industry
Libraries
Museums
Cultural ObjectsVisual
Resources
Geospatial
Data
Moving
Images Musical
Materials
Scholarly
Texts
AAT, CCO, CDWA, CDWA Lite,
CIDOC/CRM, DC, DTD, METS, MIX, MPEG-21 DIDL, MuseumDat, OAI-PMH,
Ontology for Media Resource, QDC, SPECTRUM, TGN, ULAN, VRA Core, XML, XML Schema, XPath, XSLT
APPM, DACS, DCAM, EAC-CPF, indecs, Linked
Data, MADS, MARC Relator Codes, METS Rights, MODS,
OAIS, PREMIS, RAD, RDF, RELAX NG, SGML, SKOS, SRU, XQuery
Atom, DDC, EAD, ISAAR(CPF),
ISAD(G), ISBD, LCC, LCSH, MARC,
MARCXML, OAI-ORE, ODRL, PB
Core, RDA, RSS, SCORM, Sears List of Subject Headings, Topic Maps, XrML, Z39.50
AGLS, CanCore, FRBR, GEM, IEEE/LOM, MPEG-7, SMIL, TGM I, TGM II, XOBIS
Strong
Semi-StrongSemi-Weak
Weak
Strong
Semi-Strong
Semi-Weak
Strong
Semi-Stro
ng
Semi-Weak
Weak
DC, DIF, DTD,
EML, METS, MPEG-21 DIDL, OAIS, QDC, VSO Data Model, XML,
XML Schema, XPath, XSLT
AGLS, DCAM, Linked Data, METS Rights, OAI-ORE, OAI-PMH, ODRL, PREMIS, RDF, RELAX NG, SGML, SKOS, SRU, XQuery, XrML
Atom, DwC, GILS, indecs,
MODS, RSS, SCORM,
Topic Maps, Z39.50
CanCore, DDC, EAC-CPF, FRBR, GEM, IEEE/LOM,
ISAAR(CPF), ISBD, LCC, MADS, MARC, MARC
Relator Codes, MARCXML, MathML,
Ontology for Media Resource, TGN, XMP,
XOBIS
DC, DTD, FGDC/CSDGM,
GML, ISO 19115, KML,
OAIS, QDC, TGN, XML, XML
Schema, XPath, XSLT
AGLS, DCAM, EML, Linked Data, METS, METS Rights, MPEG-21
DIDL, OAI-PMH, ODRL, PREMIS, RDF, RELAX NG, SGML, SKOS,
SRU, XQuery, XrML
CanCore, DDC, EAC-CPF, FRBR, GEM,
IEEE/LOM, ISAAR(CPF), ISBD, LCC, LCSH, MADS, MARC, MARC Relator
Codes, MARCXML, Ontology for Media Resource, Sears List of Subject Headings, XMP, XOBIS
DatasetsDC, DTD, FRBR, LCSH,
METS, MPEG-21 DIDL, MXF, Ontology for
Media Resource, PB Core, QDC, XML,
XML Schema, XPath, XSLT,
Z39.50
AACR2, CanCore, DCAM, DDC, GEM, IEEE/LOM, indecs, ISBD, LCC, Linked Data, MADS, MARC, MARC Relator Codes, MARCXML, METS Rights, MODS, MPEG-7, MuseumDat, NewsML, OAI-PMH, OAIS, ODRL, PREMIS, RAD, RDA, RDF, RELAX NG, Sears List of Subject Headings, SGML, SKOS, SMIL, SRU, XMP, XOBIS, XQuery, XrML
AGLS, APPM, Atom, CIDOC/CRM, DACS, EAC-CPF, EAD,
ISAAR(CPF), ISAD(G), OAI-ORE, RSS, SCORM, TGN, Topic Maps
ADL, AES Core Audio, AES Process History,
DC, DTD, FRBR, ID3, LCSH, MEI, METS, MO,
MPEG-21 DIDL, MusicXML, MXF,
Ontology for Media Resource, PB Core,
QDC, XML, XML Schema, XPath,
XSLT, Z39.50
AACR2, DCAM, DDC, indecs, ISBD, LCC, Linked
Data, MADS, MARC, MARC Relator Codes, MARCXML, METS
Rights, MODS, OAI-PMH, OAIS, ODRL, PREMIS, RAD, RDA, RDF,
RELAX NG, Sears List of Subject Headings, SGML, SKOS, SMIL, SRU,
XOBIS, XQuery, XrML
AGLS, APPM, Atom, CIDOC/CRM, DACS, EAC-CPF, EAD,
ISAAR(CPF), ISAD(G), MPEG-7, OAI-ORE, RSS, SCORM, Topic Maps
CanCore, GEM, IEEE/LOM, MIX, MuseumDat, TGN, XMP
DC, DTD, ISBD, LCSH, MESH,
METS, MPEG-21 DIDL, OAI-ORE, OAI-PMH,
OAIS, ONIX, OpenURL, QDC, SRU, SWAP, TEI,
TextMD, XML, XML Schema, XPath,
XSLT, Z39.50
AACR2, AGLS, Atom,
BISAC, DACS, DCAM, DDC, FRBR, indecs, LCC,
Linked Data, MADS, MARC, MARC Relator Codes, METS Rights, MODS,
PREMIS, PRISM, RDF, RELAX NG, RSS, Sears List of Subject
Headings, SGML, SKOS, XMP, XOBIS, XQuery, XrML
CanCore, EAC-CPF, EAD, GEM,
IEEE/LOM, ISAAR(CPF), ISAD(G), MARCXML, ODRL,
Ontology for Media Resource, SCORM, TGN,
Topic Maps
MathML, MIX
AAT, CCO, CDWA, CDWA Lite,
DC, DIG35, DTD, METS, MIX, MPEG-21 DIDL, OAI-PMH,
OAIS, Ontology for Media Resource, PB Core, QDC, SRU, TGM I, TGM II, TGN, ULAN,
VRA Core, XML, XML Schema, XPath, XSLT, Z39.50
AACR2, CanCore, CIDOC/CRM, DCAM, GEM,
IEEE/LOM, indecs, ISBD, Linked Data, MADS, MARC Relator Codes, METS
Rights, MODS, MPEG-7, MuseumDat, NewsML, ODRL, PREMIS, RAD,
RDA, RDF, RELAX NG, SGML, SKOS, SMIL, XMP, XOBIS,
XQuery, XrML
AGLS, APPM, Atom, DACS, EAC-CPF, EAD, ISAAR(CPF), ISAD(G), LCSH, MARC, MARCXML, OAI-ORE, RSS, SCORM, Sears List of Subject Headings, Topic Maps
DDC, FRBR, LCC
DomainAtom, DwC, GILS,
indecs, MODS, OAI-ORE, RSS, SCORM, Topic Maps,
Z39.50 Seeing Standards: Domain refers to the types of materials the standard is intended to be used with or could potentially be useful for. The specific categories represented here are not intended to be exhaustive, nor are they mutually exclusive; rather, they are focused on some common material types that are managed by cultural heritage and other information organizations.
Cultural Objects refers to works of art, architecture, and other creative endeavor.
Datasets refers to collections of primary data, largely before interpretive activities have taken place. They may be collected by scientific instruments, or through research activities in the sciences, social sciences, humanities, or other disciplines.
Geospatial Data refers to information relevant to geographic location, either as the data about geographic places themselves or the relationship of a resource to a specific location.
Moving Images refers to resources expressed as film, video, or digital moving images.
Musical Materials refers to resources expressing music in any form, including as audio, notation, and moving image.
Scholarly Texts refers to resources produced as part of a research or scholastic process, and includes both book-length and article-length material.
Visual Resources refers to material presented in fixed visual form. These materials may be either artistic or documentary in nature.
Community refers to the groups that currently or potentially use the standard. Those that originated a standard or who are the primary audiences are stronger matches, while those that could use the standard effectively but do not frequently do so are weaker matches.
Libraries refers to those organizations that collect and preserve both primary and secondary material in support of research, scholarship, teaching, and leisure. Academic, public, special, and corporate libraries are included here.
Archives refers to those organizations that collect and preserve the natural outputs of the daily work of individuals and other organizational entities, including traditional records management processes. Their emphasis is frequently on the context of the creation of the materials and their relationship to one another.
Museums refers to those organizations that collect and preserve artifacts from a given field with an emphasis on their curation and interpretation. Art, science, natural history, and many other types of museums are included here.
Information Industry refers to the diverse organizations that make up both the public and the commercial Web. Technologies that support inventory and knowledge management, e-commerce, and the workings of the Internet are included here.
Community
AATArchives
Libra
r ies
Museum
s
Controlle
d Vocabula
ry
Descrip
tive M
eta
data
Cultural Objects
Vis
ua
l Reso
urc
es
CCO
Libra
ries
Museum
s
Cultural Objects
Vis
ua
l Reso
urc
es C
onte
nt
Sta
ndard
Contro
l led V
ocabulary
Descrip
tive M
eta
data
CDWA LiteR
ights Metadata
Structural Metadata
Descrip
tive M
eta
data
Record F
ormat
Structure Standard
Cultural Objects
Vis
ua
l Reso
urc
es
Libra
ries
Museum
s
Archives
AACR2Lib
rari
es
Museum
s
Archives
Moving Im
ages
Musical M
aterials
Sch
ola
rly Texts
Vis
ual R
esourc
es
Technical Metadata
Rights M
etadata
Structural Metadata
Descrip
tive M
eta
data
Conte
nt
Sta
ndard
Contro
l led V
ocabulary
DACSLib
rarie
s
Museum
s
Archives
Moving Im
ages
Musical M
aterials
Scholarly Texts
Vis
ual R
esourc
es
Cultural Objects Conte
nt
Sta
ndard
Descriptive Metadata
Rights M
etadata
DublinCore Technical MetadataR
ights Metadata
Structural Metadata
Descrip
tive M
eta
data
Conte
nt Sta
ndard
Contro
l led V
ocabulary
Record Format
Structure Standard
Movin
g Im
ages
Music
al M
ate
rials
Schola
rly T
exts
Vis
ua
l Re
so
urc
es
Cultural Objects
Datasets
Geospatial Data
Archives
Informatio
n Industry
Lib
rari
esM
useu
ms
EADLib
rarie
s
Museum
s
Archives
Moving Im
ages
Musical M
aterials
Schola
rly Texts
Vis
ual R
esourc
es Cultural Objects
Record F
ormat
Structure Standard
Mark
up L
anguage
Rights M
etadata
Structural Metadata
Descrip
tive M
eta
data
FOAFDescrip
tive M
eta
data
Record F
ormat
Structure Standard
Archives
Info
rmatio
n Industr
y
Lib
rari
es
Mu
seu
ms
FRBRArchives
Info
rmatio
n Industry
Lib
rari
es
Mu
seu
ms
Movin
g Im
ages
Music
al M
ate
rials
Scholarly Texts
Vis
ual R
esourc
es
Cultural Objects
Geospatial Data Datasets Conceptu
al M
odel
Technical Metadata
Structural Metadata
Descrip
tive M
eta
data
LCSHDescrip
tive M
eta
data
Controlle
d Vocabula
ry
Movin
g Im
ages
Music
al M
ate
rials
Scholarly Texts
Vis
ual R
esourc
es
Cultural Objects
Geospatial Data
Archives
Info
rmatio
n Industry
Lib
rari
es
Museum
s
MADSLib
rari
es
Museum
s
Archives
Moving Im
ages
Musical M
aterials
Scholarly Texts
Visu
al Reso
urces
Cultural Objects Datasets
Geospatial Data Record F
ormat
Structure Standard
Descrip
tive M
eta
data
MARCTechnical Metadata
Rights M
etadata
Structural Metadata
Descrip
tive M
eta
data
Conte
nt Sta
ndard
Record F
ormat
Structure Standard
Moving Im
ages
Musical M
aterials
Scholarly Texts
Vis
ual R
eso
urc
es
Cultural Objects
Geospatial Data Datasets
Libra
ries
Archives
MARCXML Technical MetadataR
ights Metadata
Structural Metadata
Descrip
tive M
eta
data
Conte
nt Sta
ndard
Record F
ormat
Structure Standard
Moving Im
ages
Musical M
aterialsV
isu
al R
eso
urc
es
Cultural Objects
Geospatial Data Datasets
Libra
ries
Archives
Scholarly Texts
METSArchives
Info
rmatio
n Industry
Museum
s
Lib
rari
es
Movin
g Im
ages
Music
al M
ate
rials
Schola
rly T
exts
Vis
ua
l Re
so
urc
es
Cultural Objects
Datasets
Geospatial Data Record
Form
at
Structure Standard
Structural Metadata
Metadata W
rappers
MIXArchives
Info
rmatio
n Industry
Mu
seu
ms
Lib
rari
es
Music
al M
ate
rials
Schola
r ly T
exts
Vis
ua
l Re
so
urc
es
Cultural Objects C
ontrol le
d Vocabula
ry
Record F
ormat
Structure Standard
Technical MetadataPreservation M
etadata
MODSArchives
Mu
seu
ms
Libra
ries
Moving Im
ages
Musical M
aterials
Scholarly Texts
Visu
al Reso
urces
Cultural Objects Datasets
Geospatial Data Conte
nt Sta
ndard
Contro
l led V
ocabulary
Record F
ormat
Structure Standard
Technical MetadataR
ights Metadata
Structural Metadata
Descrip
tive M
eta
data
OAI-PMHDescrip
tive M
eta
data
Fra
mew
ork
/Technolo
gy
Moving Im
ages
Musical M
aterials
Schola
rly T
exts
Vis
ua
l Re
so
urc
es
Cultural Objects
Datasets
Geospatial Data
Archives
Info
rmatio
n Industr
y
Lib
rari
es
Mus
eum
s
OAI-OREStructural Metadata
Descrip
tive M
eta
data
Record F
ormat
Structure Standard
Fra
mew
ork
/Technolo
gy
Movin
g Im
ages
Music
al M
ate
rials
Schola
rly T
exts
Vis
ual R
eso
urc
es
Cultural Objects
Datasets
Geospatial Data
Archives
Informatio
n Industry
Lib
rari
es
Mu
seu
ms
A Visualization of the Metadata Universe
Weak
Content: Jenn RileyDesign: Devin Becker
Work funded by the Indiana University Libraries’ White Professional Development Award
Copyright 2009-2010 Jenn Riley
This work is licensed under a Creative Commons Attribution-Noncommercial-Share Alike 3.0 United States License
<http://creativecommons.org/licenses/by-nc-sa/3.0/us/>.
The sheer number of metadata standards in the cultural heritage sector is overwhelming, and their inter-relationships further complicate the situation. This visual map of the metadata landscape is intended to assist planners with the selection and implementation of metadata standards.
Each of the 105 standards listed here is evaluated on its strength of application to defined categories in each of four axes: community, domain, function, and purpose. The strength of a standard in a given category is determined by a mixture of its adoption in that category, its design intent, and its overall appropriateness for use in that category.
The standards represented here are among those most heavily used or publicized in the cultural heritage community, though certainly not all standards that might be relevant are included. A small subset of the standards plotted on the main visualization also appear as highlights above the graphic. These represent the most commonly known or discussed standards for cultural heritage metadata.
StrongConnection
Semi-StrongConnection
Semi-WeakConnection
WeakConnection
The standards listed closest to the center
of a sliver are those that are most strongly
connected to the given category.
Strength of Standard’s connection
indicated byFont Size
&Color
Saturation
Summary and Purpose
LEGEND TEIR
ights Metadata
Structural Metadata
Descrip
tive M
eta
data
Technical Metadata
Mark
up L
anguage
Conte
nt Sta
ndard
Record Format
Scho
larly Texts
Archives
Info
rmatio
n Ind
ustry
Lib
rari
es
Museum
s
Font Size=
Star’s strength for given category
Stars represent those standards that are used
most often.
Strong connection
Semi-Strong connection
http://www.dlib.indiana.edu/~jenlrile/metadatamap/seeingstandards.pdf
Metadatenstandards
Mittwoch, 9. April 14
Typen und Notation von Metadatenstandards
Typen von StandardsStruktur-Semantik-Standards standardisieren Struktur und Bedeutung von Metadatenelementen(z.B. DC, MARC, FOAF, RAK-WB, REM, FRBR, RDA)
Normdaten standardisieren die Bezeichnung von Inhalten(z.B. PND, LCSH, DDC, UDC)
Protokolle regeln Abruf/Austausch von Metadaten(z.B. HTTP, Z39.50, SRU, OAI, SPARQL)
TXT
CSV
XML
RDF
OWL
Notationsform
Gra
d m
asch
inelle
r Int
erpr
etier
bark
eit
Mittwoch, 9. April 14
NormdatenGND: Gemeinsame Norm Dateien
/ 106
■Normdatei für Personen, Körperschaften, Kongresse, Geografika, Sachschlagwörter und Werktitel, vor allem zur Erschließung von Literatur in Bibliotheken, zunehmend aber auch von Archiven, Museen, etc.■Herausgegeben von der Deutschen Nationalbibliothek
□ 4.628.000 Personennamen (nicht individualisiert, keine Typ-Angabe)□ 2.882.000 Personen (individualisiert, Typ p)□ 1.172.000 Körperschaften (Typ k)□ 587.000 Kongresse (Typ v)□ 293.000 Geografika (Typ g)□ 202.000 Sachbegriffe (Typ s)□ 193.000 Werke (Typ w)
□Online Abfrage via Bibliotheksservice-Zentrum Baden Württemberghttp://swb.bsz-bw.de/DB=2.104/□ vergleichbar mit Library of Congress Name Authority File (LCNAF)
47
Mittwoch, 9. April 14
/ 10648
NormdatenGND: Gemeinsame Normdateien
Mittwoch, 9. April 14
/ 106
UDC: Universale Dezimalklassifikation
■ virtuelle internationale Normdatei für Personendaten ■ Gemeinschaftsprojekt von 25 Nationalbibliotheken und Bibliotheksverbünde,■ betrieben durch Online Computer Library Center (OCLC)
49
NormdatenVIAF: Virtual International Authority File
• Bibliotheca Alexandrina, Ägypten• National Library of Australia, Australien• Open VLACC, Belgien• Dansk BiblioteksCenter (DBC), Dänemark• Deutsche Nationalbibliothek, Deutschland• Bibliothèque nationale de France, Frankreich• Système universitaire de documentation, Frankreich• The National Library of Israel, Israel• Istituto Centrale per il Catalogo Unico, Italien• Nationale Parlamentsbibliothek, Japan• Library and Archives Canada, Kanada• Lettische Nationalbibliothek, Lettland• BIBSYS, Norwegen• Biblioteka Narodowa, Polen• Narodowy Uniwersalny Katalog (NUKAT), Polen• Biblioteca Nacional de Portugal, Portugal• Königliche Bibliothek zu Stockholm, Schweden
• Schweizerische Nationalbibliothek, Schweiz• RERO, Schweiz• Biblioteca Nacional de España, Spanien• Biblioteca de Catalunya, Spanien• Nationalbibliothek der Tschechischen Republik, Tschechien• Széchényi-Nationalbibliothek, Ungarn• Getty Research Institute, USA• Library of Congress, USA• Biblioteca Apostolica Vaticana, Vatikan• National- und Universitätsbibliothek Zagreb, Kroatien• Königliche Bibliothek der Niederlande, Niederlande• Lebanese National Library, Libanon• Russische Staatsbibliothek, Russland• National Library Board, Singapur• Perseus Project, Vereinigte Staaten• Syriac Reference Portal• International Standard Name Identifier
http://www.viaf.org
Mittwoch, 9. April 14
/ 106
NormdatenDDC: Dewey Decimal Classification
■ 10 Haupttafeln,
■ Alle untergeordneten Klassen erfüllen die Merkmale ihrer Eltern
■ Deutsche variante: http://melvil.d-nb.de/melvilsearch?bs=dnb-portal ■ http://dewey.info (SPARQL Endpoint + Doku)
50
000 Informatik, Informationswissenschaft, allgemeine Werke 100 Philosophie und Psychologie 200 Religion 300 Sozialwissenschaften 400 Sprache 500 Naturwissenschaften und Mathematik 600 Technik, Medizin, angewandte Wissenschaften 700 Künste und Unterhaltung 800 Literatur 900 Geschichte und Geografie
Mittwoch, 9. April 14
/ 106
UDC: Universale Dezimalklassifikation
■ Prinzip der Facettenklassifikation >> +68.000 Klassennamen und Facetten□ Haupttafeln: Hierarchien wie DDC□ Hilfstafeln: Facettierende Elemente
(Sprache, Form, Ort, Abstammung, Zeit und Materialeigenschaften)□ Symbole: Syntax für Verknüpfung von Facetten und Klasse
□ http://www.udcc.org/udcsummary/php/index.php
51
NormdatenUDC: Universelle Dezimalklassifikation
Mittwoch, 9. April 14
Dublin Core
•Metadatenstandards
OAI-OREIPTC
MPEG-7
MPEG-21
BBC SMEF
SMPTE 377MTV-Anytime
REM
EADCIDOC-CRM
FIAF Cataloging Rules
Cinematographic Works Standard
VRA Core
UNESCO Thesaurus
GND DDC
UDC
LCSHLCC
MARC
RDA
MAB
MODS
MXF P_MetaDMS-1BMF
Mittwoch, 9. April 14
/ 10653
to be continued...Mittwoch, 9. April 14
Metadaten für Medienarchive
Agenda
•Einführung ins Thema
•Metadatenstandards
•semantische Metadaten
•Linked (Open) Data
•Beispiele
Mittwoch, 9. April 14
55
„People can‘t share knowledge if they don‘t speak a common language“Thomas Davenport (1997)
Turmbau zu Babel, Pieter Brueghel, 1563Mittwoch, 9. April 14
56
Wahrheiten(Truths)
Annahmen(Beliefs)
Wissen(Knowledge)
Klassische Definition:„Wissen ist eine Teilmenge aller wahren Annahmen“
Was ist Wissen?
Mittwoch, 9. April 14
57
Semantische Metadaten
Mittwoch, 9. April 14
58
Semantische Metadaten
• sind strukturierte/unstrukturierte Metadaten• Semantik (Bedeutung) der Metadaten ist formal definiert (Ontologie)
und daher maschinenlesbar (und maschinenverstehbar)
Mittwoch, 9. April 14
59
3. Wissensrepräsentation und Logik3.1 Ontologien in Philosophie und Informatik
Raffael: Die Schule von Athen, 1510-11
Ontologie(n)
ein kleiner Exkurs...Mittwoch, 9. April 14
60
Raffael: Die Schule von Athen, 1510-11Christian Wolff: Philosophia prima sive Ontologia, 1729
• ον [griech.] Partizip zu „sein“ λογια [griech.] Lehre
Begriffsbestimmung
„Philosophische Disziplin, die sich primär mit dem Sein, dem Seienden als solchem und mit den fundamentalen Typen von Entitäten beschäftigt...“ (wikipedia)
• „wie sind die Dinge als solches (an sich)?“
allgemeine Metaphysik⇳
Erkenntnistheorie (Epistemologie)
Mittwoch, 9. April 14
61
3. Wissensrepräsentation und Logik3.1 Ontologien in Philosophie und Informatik
Raffael: Die Schule von Athen, 1510-11
Aristoteles(384-322 v. Chr)
Platon(427-347 v. Chr)
Sokrates(470-399 v. Chr)
Verstand/Vernunft
Ideen Gegenstände
Sinneswahrnehmung(empeiria)
Wiedererinnerung(anamnesis)
unveränderlichunvergänglich
Urbild
veränderlichvergänglich
Abbildnach http://upload.wikimedia.org/wikipedia/commons/7/7d/Platon_Ideenlehre.svgMittwoch, 9. April 14
62
3. Wissensrepräsentation und Logik3.1 Ontologien in Philosophie und Informatik
Raffael: Die Schule von Athen, 1510-11
Platon(427-347 v. Chr)
(Abbildung aus: Osborne, Philosophie - Eine Bildergeschichte für Einsteiger)
Platons Höhlengleichnis• aus Platons ,Politeia‘, 7. Buch, entstanden um ca. 370 v. Chr.
Mittwoch, 9. April 14
63
3. Wissensrepräsentation und Logik3.1 Ontologien in Philosophie und Informatik
Raffael: Die Schule von Athen, 1510-11
Aristoteles(384-322 v. Chr)
Aristoteles stellt ein System von Kategorien auf zur Klassifikation aller Dinge, über die Aussagen getroffen werden können
Aristotelische Kategorienlehre
Mittwoch, 9. April 14
64
3. Wissensrepräsentation und Logik3.1 Ontologien in Philosophie und Informatik
Raffael: Die Schule von Athen, 1510-11
Aristoteles(384-322 v. Chr)
Aristoteles stellt ein System von Kategorien auf zur Klassifikation aller Dinge, über die Aussagen getroffen werden können
Aristotelische Kategorienlehre
Mittwoch, 9. April 14
65
Semantische MetadatenOntologien
"An ontology is an explicit, formal specification of a shared conceptualization. The term is borrowed from philosophy, where an Ontology is a systematic account of Existence. For AI systems, what ‘exists’ is that which can be represented.“
(Thomas R. Gruber, 1993)
Konzeptualisierung: abstraktes Modell (Domäne, identifizierte relevante
Begriffe, Beziehungen)
Explizit: Bedeutungen aller Begriffe definiert
Formal: maschinenverstehbar
Gemeinsam: Konsens bzgl. Ontologie
Mittwoch, 9. April 14
Semantische MetadatenSemiotisches Dreieck
66
Symbol Gegenstandsteht für
„Golf“
ruft hervor referenziert
Konzept
verwendengemeinsames Konzept
Ogden, Richards, semiotisches Dreieck, 1923
Mittwoch, 9. April 14
67
Publikation
Buch
ist eine
Zeitschrift
ist eine
Verlag verlegt
• Titel• Schlüsselwörter• ...
Eigenschaften
Autorverfasst
wird verfasstvon
Personist eine
Adresse
hat eine
• Nachname• Vorname• Straße...
Eigenschaften
Springer Verlag
ist ein
HaraldSack
ist eine
Digitale Kommunikationist ein
1..n
1..n
Mann
Frauist eine
ist eine
≠
Semantische Metadaten
Mittwoch, 9. April 14
68 • erlauben die Festlegung formaler Axiome• z.B. „Es ist nicht möglich, dass das Publikationsdatum
vor dem Geburtsdatum eines Autors der Publikation liegt.“
• erlauben das Ziehen von Schlussfolgerungen• z.B. „Alle Menschen sind sterblich.“
„Sokrates ist ein Mensch.“ „Daher ist Sokrates sterblich.“
Raffael: Die Schule von Athen, 1510
Semantische Metadaten
Mittwoch, 9. April 14
6916
Ontologietypen
Mittwoch, 9. April 14
allgemeine, bereichsübergreifende Ontologien (beschreibt sehr generelle Konzepte wie z.B. Zeit, Raum,Vorgang unabhängig von einer bestimmten Domäne oder Problemstellung.)
Domain Ontology Task Ontology
spezielle, auf eine konkret fokussierte Domäne oderAufgabe zugeschnittene Ontologie, die in der Regel eine Domain und/oder Task Ontologie spezialisieren.
Application Ontology
(nach Guarino,1998)
grundlegende Konzepte bezogen auf eine allgemeine Aktivität oder Aufgabe.
grundlegende Konzepte bezogen auf eine generische Domäne.
Top-Level Ontology(Upper Ontology,
Foundation Ontology)
Ontologietypen und -kategorien
Mittwoch, 9. April 14
7116 allgemeine, bereichsübergreifende Ontologien (beschreibt sehr generelle Konzepte wie z.B. Zeit, Raum,Vorgang unabhängig von einer bestimmten Domäne oder Problemstellung.)
(nach Guarino,1998)
Domain Ontology Task Ontology
spezielle, auf eine konkret fokussierte Domäne oderAufgabe zugeschnittene Ontologie, die in der Regel eine Domain und/oder Task Ontologie spezialisieren.
Application Ontology
grundlegende Konzepte bezogen auf eine allgemeine Aktivität oder Aufgabe.
grundlegende Konzepte bezogen auf eine generische Domäne.
Top-Level Ontology(Upper Ontology,
Foundation Ontology)
Ontologietypen und -kategorien
Mittwoch, 9. April 14
7216 allgemeine, bereichsübergreifende Ontologien (beschreibt sehr generelle Konzepte wie z.B. Zeit, Raum,Vorgang unabhängig von einer bestimmten Domäne oder Problemstellung.)
Domain Ontology Task Ontology
spezielle, auf eine konkret fokussierte Domäne oderAufgabe zugeschnittene Ontologie, die in der Regel eine Domain und/oder Task Ontologie spezialisieren.
Application Ontology
(nach Guarino,1998)
grundlegende Konzepte bezogen auf eine allgemeine Aktivität oder Aufgabe.
grundlegende Konzepte bezogen auf eine generische Domäne.
Top-Level Ontology(Upper Ontology,
Foundation Ontology)
Ontologietypen und -kategorien
Mittwoch, 9. April 14
7316 allgemeine, bereichsübergreifende Ontologien (beschreibt sehr generelle Konzepte wie z.B. Zeit, Raum,Vorgang unabhängig von einer bestimmten Domäne oder Problemstellung.)
Domain Ontology Task Ontology
spezielle, auf eine konkret fokussierte Domäne oderAufgabe zugeschnittene Ontologie, die in der Regel eine Domain und/oder Task Ontologie spezialisieren.
Application Ontology
(nach Guarino,1998)
grundlegende Konzepte bezogen auf eine allgemeine Aktivität oder Aufgabe.
grundlegende Konzepte bezogen auf eine generische Domäne.
Top-Level Ontology(Upper Ontology,
Foundation Ontology)
Ontologietypen und -kategorien
Mittwoch, 9. April 14
Ontologietypen und -kategorien
7416 allgemeine, bereichsübergreifende Ontologien (beschreibt sehr generelle Konzepte wie z.B. Zeit, Raum,Vorgang unabhängig von einer bestimmten Domäne oder Problemstellung.)
Domain Ontology Task Ontology
spezielle, auf eine konkret fokussierte Domäne oderAufgabe zugeschnittene Ontologie, die in der Regel eine Domain und/oder Task Ontologie spezialisieren.
Application Ontology
(nach Guarino,1998)
grundlegende Konzepte bezogen auf eine allgemeine Aktivität oder Aufgabe.
grundlegende Konzepte bezogen auf eine generische Domäne.
Top-Level Ontology(Upper Ontology,
Foundation Ontology)
Mittwoch, 9. April 14
lightweight ontologies heavyweight ontologies
kontrolliertesVokabular
(nach Lassila/McGuinnes, 2001)
Thesauri
Begriffe/Glossar
informalesist-ein
formalesist-ein
formaleInstanz
Frames
Wert-Restriktionen
Allg.logische
Constraints
Disjunktheit,Inverses,Part-of…
Ausdruckstärke +-
Ontologietypen und -kategorien
Mittwoch, 9. April 14
Terminologien und Vokabulare
Mittwoch, 9. April 14
Datenbank
Ordnungssystem
• Terminologische Kontrolle: löst Bedeutungsvielfalt durch Hierarchie o. TypisierungBank (Sitzgelegenheit) vs. Bank (Finanzinstitut)
• Vokabularkontrolle: führt Benennungsvielfalt durch Äquivalenzrelation zusammenalte oder neue Rechtschreibung, Singular/Plural, Sprache, Dialekt ...
Terminologien und Vokabulare
Mittwoch, 9. April 14
• Kontrolliertes Vokabular:endliche Liste von Begriffen (z.B. Kataloge)
• Glossar: eine endliche Liste von Begriffen und deren zugehörige Bedeutung, formuliert in natürlicher Sprache (informal).
• Thesauri: [griech. „Schatz, Schatzhaus“]Kontrolliertes Vokabular, dessen Begriffe durch Relationen miteinander verbunden sind.
• Äquivalenz (Synonyme)• Hierarchien (Ober-, Unterbegriffe)• Homographien (Homonyme)• Assoziationen (ähnliche Begriffe)
Ontologietypen und -kategorien
Mittwoch, 9. April 14
Thesaurus
Unterhose
Schlüpfer
Synonyme
Slip
Tanga
Liebestöter
Boxershort
Spezialisierungen
UnterwäscheOberbegriff
Unterhemd
Assoziation
Ontologietypen und -kategorien
Mittwoch, 9. April 14
8016 Taxonomiesysteme
• auch Klassifikationssystem, Nomenklatur, …• in der Wissenschaft meist Einteilung in (mono-)hierarchisch aufgebaute
Klassen (Klassen, Unterklassen, ...)• (auch) Teilgebiet der Biologie:
• Erfassung der verwandtschaftlichen Beziehungen von Lebewesen in einem hierarchisch aufgebauten System
Taxonomie: Einteilung von Dingen (oder auch Lebewesen) in Gruppen (von [griech]. τασσεῖν (tassein) = klassifizieren und νόµος (nomos) = Gesetz, Wissenschaft) ...
Ontologietypen und -kategorien
Mittwoch, 9. April 14
8116
• Carl v. Linné (um 1740) schafft ein einfaches, noch heute gebräuchliches hierarchisches Klassifikationsschema für Tiere/Pflanzen
Carl v. Linné(1707-1778)
Des Ritters Carl von Linné vollständiges Natursystem, 1778Mittwoch, 9. April 14
unterschiedliche Tierkategorien in "einer gewissen chinesischen Enzyklopädie" nach Jorge Luis Borges:
- dem Kaiser gehörige, - einbalsamierte, - gezähmte, - Milchschweine, - Sirenen, - Fabeltiere, - streunende Hunde, - in diese Einteilung aufgenommene, - die sich wie toll gebärden, - unzählbare, - mit feinstem Kamelhaarpinsel gezeichnete, - und so weiter, - die den Wasserkrug zerbrochen haben, - die von weitem wie Fliegen aussehen.
Jorge Luis Borges(1899-1986)
Ontologien und die Wirklichkeit
Mittwoch, 9. April 14
Ontologien und die Wirklichkeit
Mittwoch, 9. April 14
Metadaten für Medienarchive
Agenda
•Einführung ins Thema
•Metadatenstandards
•semantische Metadaten
•Linked (Open) Data
•Beispiele
Mittwoch, 9. April 14
4242 42 4224424242 42 424285
Beispiel aus dem aktuellen HPI-SeminarA LOD of Movies
Mittwoch, 9. April 14
86
■Du suchst Informationen zu einem Film?
■kein Problem......
Mittwoch, 9. April 14
87
■Du suchst Informationen zu einem Film?
■kein Problem......
■....solange Du den Titel kennst
■....solange Du weißt, wer mitspielt
■...oder solange Du weißt, wer Regie geführt hat
■Was aber wenn Du vor folgendem Problem stehst:
Mittwoch, 9. April 14
88
Wer war das nochmal, der diesen alten Film mit der Dings gedreht hat, na dieser schwedischen Filmdiva, die in dem Film eine Kommunistin spielt, die nach Paris geschickt wird, um nach dem Rechten zu sehen, ob die sowjetischen Agenten dort dem kapitalistischen Luxus zum Opfer gefallen sind? Na das ist doch auch der einzige Film, in dem die auch ‘mal richtig lacht...
Mittwoch, 9. April 14
89
Wer war das nochmal, der diesen alten Film mit der Dings gedreht hat, na dieser schwedischen Filmdiva, die in dem Film eine Kommunistin spielt, die nach Paris geschickt wird, um nach dem Rechten zu sehen, ob die sowjetischen Agenten dort dem kapitalistischen Luxus zum Opfer gefallen sind? Na das ist doch auch der einzige Film, in dem die auch ‘mal richtig lacht...
Mittwoch, 9. April 14
90
Linked Open Data
Mittwoch, 9. April 14
91
dbedia-owl:Film
yyyyyyy
xxxxxxxxx
dbpedia-owl:director
rdf:type
zzzzzzzdbpedia-owl:starring
dbpedia-owl:Actor
rdf:type
dbpedia-owl: SwedishFilmActor
rdf:type
rdfs:subClassOf
category:American_political_satire_films
dcterms:subject
rdfs:subClassOf
category:Films_set_in_Paris
dcterms:subject
Mittwoch, 9. April 14
Mittwoch, 9. April 14
Ernst Lubitsch
Mittwoch, 9. April 14
■Was kann man mit diesen vielen Metadaten anfangen?□ semantische Suche□explorative Suche□Fact Retrieval□Question Answering Systeme□Empfehlungssysteme□ ...
Mittwoch, 9. April 14
Linked (Open) DataMetadaten mit einheitlicher Schnittstelle
Dokument
Dokument
Dokument
Dokument
Dokument
Hyperlink
Hyperlink Hyperlink
Hyperlink
HyperlinkHy
perlink
1990: The Web of Documents Today: The Web of Data
Mittwoch, 9. April 14
Linked (Open) DataMetadaten mit einheitlicher Schnittstelle
•Ist Information heute nicht im WWW vorhanden (= über einen Webserver verfügbar), kann sie nur schwer gefunden werden (wenn überhaupt...)
Datenbank
Web-Server
JDBC
HTTPHTML
Mittwoch, 9. April 14
Linked (Open) DataMetadaten mit einheitlicher Schnittstelle
•Das WWW ist für die Nutzung durch den Menschen bestimmt•Das WWW basiert auf der Markupsprache HTML
•HTML beschreibt•wie Informationen dargestellt werden sollen (XHMLT + CSS),
•wie Informationen miteinander verknüpft werden können,
•aber nicht, was diese Informationen bedeuten….
bedarf der Interpretation durch den Menschen...
Mittwoch, 9. April 14
Linked (Open) DataMetadaten mit einheitlicher Schnittstelle
•Daten im WWW sind verschlossen in abgeschirmten „Datensilos“
•Andere Applikationen können diese Daten weder zugreifen noch weiterverarbeiten
Datenbank
Datenbank
DatenbankDatenbank
Datenbank
Datenbank
Datenbank
Datenbank
Datenbank
Mittwoch, 9. April 14
Linked (Open) DataMetadaten mit einheitlicher Schnittstelle
•Aber es gibt eine ganze Reihe unterschiedlicher (proprietärer) Web-APIs, Austauschdatenformate und darauf aufbauende Mashups
Datenbank 1
WebAPI 1
WebAPI 2
WebAPI 3
WebAPI 4
Datenbank 2 Datenbank 3 Datenbank 4
Mashup
Mittwoch, 9. April 14
100
http://www.w3.org/2009/Talks/0204-ted-tbl/#(22)
Die Probleme liegen auf der Hand....
Mittwoch, 9. April 14
Linked (Open) DataMetadaten mit einheitlicher Schnittstelle
•...Öffnen der proprietären Datensilos•...Veröffentlichung aller Daten von allgemeinem Interesse
•...und zwar so, dass •andere Anwendungen diese Daten zugreifen, benutzen und weiterverarbeiten können und
•alle Anwendungen sich zusätzliche (Meta)daten zu den verfügbaren Daten beschaffen können
Datenbank 1 Datenbank 2 Datenbank 3
Mittwoch, 9. April 14
Linked Data Principles
Database 1 Database 2 Database 3 Database 4
RDF Data RDF Data RDF Data RDF Data
RDF Links
RDF Links
RDF Links
• Identifikation individueller Daten über URIs• Zugriff über standardisiertes Webprotokoll HTTP• Kodierung der Daten via Resource Description Framework (RDF)• Verknüpfung der Daten untereinander
Mittwoch, 9. April 14
103
Die Anwendung der Linked Data Prinzipien führt zur Entstehung eines ,Web of Data‘
Mittwoch, 9. April 14
Linked (Open) DataMetadaten mit einheitlicher Schnittstelle
http://lod-cloud.net/
http://dbpedia.org/
Mittwoch, 9. April 14
105
DBpedia□Zentraler Bestandteil: Wikipedia Info-Boxen
Mittwoch, 9. April 14
106
DBpedia□Zentraler Bestandteil: Wikipedia Info-Boxen
Mittwoch, 9. April 14
107
DBpedia□Zentraler Bestandteil: Wikipedia Info-Boxen
Mittwoch, 9. April 14
108
DBpedia□Zentraler Bestandteil: Wikipedia Info-Boxen
Mittwoch, 9. April 14
109
Linked Open Data■ offen zugängliche Linked Data Ressourcen im WWW, d.h. lizensiert als
„Creative Common CC-BY“ ■ 5-Sterne Kriterien für Linked Open Data
Available on the web (whatever format) but with an open licence, to be Open Data
Available as machine-readable structured data (e.g. excel instead of image scan of a table)
as (2) plus non-proprietary format (e.g. CSV instead of excel)
All the above plus, Use open standards from W3C (RDF and SPARQL) to identify things, so that people can point at your stuff
All the above, plus: Link your data to other people’s data to provide context
★
★ ★
★ ★ ★★ ★ ★ ★
★ ★ ★ ★ ★
Mittwoch, 9. April 14
110
Linked Data Examples□ BBC Music
(http://www.bbc.co.uk/music)
Mittwoch, 9. April 14
Linked (Open) DataMetadaten mit einheitlicher Schnittstelle
Welche Vorteile bietet der Linked Data Ansatz?• vormals strukturierte Daten können mit Ontologien
verknüpft werden• ermöglicht Datenintegration• ermöglicht automatisierte Verarbeitung• ermöglicht logische Schlussfolgerungen
und Ableitung von neuem Wissen
Mittwoch, 9. April 14
/ 106112
GND
PersonULAN
FIAF Corp.Names
GTAANames
VIAF
PlaceTGN
UKAT
FIAF CountryListings
Geonames
OpenStreetMap
ZBW ISO 3166
World Gazetteer
TVA Place Type
Reuters Regions
MARC Geogr. Areas
MARC CountryCodes
TypenBA-Gattungen
IPTC NC (Genre)
EBUAudience
LCSH
LCGFT
GTAA Genre
TopicDDC
SWD
IPTC Mediatopics
BA-Thema
ZBW
UDC
FIAF Subj. Headings
DRA/DDR Thesaurus
Normdaten und semantische Metadaten
Mittwoch, 9. April 14
/ 106113
DTD
SGML*1986
XML
XLink
XPointer
XPath
XSLXSLT
XQuery
Schema
*1996
HTML*1990
XHTML*2000
RDF*1997
RDF(S)*1999
OWL*2004
RDFa*2004
Metadatennotationsformate
Mittwoch, 9. April 14
/ 106
■ XML hat sich als Austauschformat für Metadaten etabliert, weil:□ Einfacheit/Lesbarkeit□ Plattform- und Anwendungsunabhängigkeit□Modularität/Erweiterbarkeit (XML Schema)□W3C Standardisiert □ Validierbarkeit (wohlgeformt, Gültigkeit)□ lizenzfrei□ gut unterstützt (viele Tools)
114
<?xml version="1.0"?><sammlung>
<film> <titel> Städtereise ... </titel> <stichwort> Kultur </stichwort> </film>
<film>...</film>
</sammlung>
XML: eXtensible Markup Language
Mittwoch, 9. April 14
http://swib.org/swib10/vortraege/swib10_gradmann.pdf
RDF: Resource Description Framework
Mittwoch, 9. April 14
□ Aussagen über Web-Ressourcen in Form von Tripeln (Subjekt - Prädikat - Objekt)□ RDF referenziert Terme in externen Namespaces (Vokabularen) ...□ ... in denen die Semantik definiert wird (RDFS/OWL)
Indentifikation
(URI
) Semantik(z.B. DC, FOAF, OAI-ORE)
DatenmodellTriple => Subjekt, Prädikat, Objekt
SyntaxRDF/XML, N3, Turtle
Don't say "green"!Say "http://example.org/colors#FF0"
RDF: Resource Description Framework
dbpedia:Greta_Garbo
dbpedia-owl:Actor
rdf:type
dbpedia-owl: SwedishFilmActor
rdf:type
rdfs:subClassOf
Mittwoch, 9. April 14
RDF: Resource Description Framework
dbpedia:Greta_Garbo
dbpedia-owl:Actor
rdf:type
dbpedia-owl: SwedishFilmActor
rdf:type
rdfs:subClassOf
@prefix dbpedia: <http://dbpedia.org/resource/>.@prefix rdf: <http://www.w3.org/1999/02/22-rdf-syntax-ns#>.@prefix rdfs: <http://www.w3.org/2000/01/rdf-schema#>.@prefix dbpedia-owl: <<http://dbpedia.org/ontology/>.
dbpedia:Greta_Garbo rdf:type dbpedia-owl:Actor.dbpedia:Greta_Garbo rdf:type dbpedia-owl:SwedishFilmActor.dbpedia-owl:SwedishFilmActor rdfs:subClassOf dbpedia-owl:Actor.
Mittwoch, 9. April 14
mg:hasDepictedObject
"2011-09-24T14:00:00Z"^^xsd:dateTime
owl:SameAs
rdfs:label
mg:Annotation/Ann42:Annotation
mg:annotationTimestamp
mg:resource/Erich_Honeckerrdfs:Resource
http://dbpedia.org/resource/Erich_Honecker
dbpedia-owl:Person
mg:User/User1
foaf:maker
mg:isAnnotationFor
"Benutzer_xy"
mg:film1mg:FilmWork
foaf:Person
mg:filmIdentifier
"QABSWRGGG"
foaf:name
dbp-owl:spouse
dbp-owl:abstract
http://dbpedia.org/resource/Margot_Honecker
dbpedia-owl:Person
"""Erich Honecker war ein deutscher kommunistischer Politiker. Er war hauptamtlicher Funktionär der KPD und war in der Zeit des Nationalsozial..."""
"Erich Honecker"@de
Mittwoch, 9. April 14
Mittwoch, 9. April 14
Metadaten für Medienarchive
Agenda
•Einführung ins Thema
•Metadatenstandards
•semantische Metadaten
•Linked (Open) Data
•Beispiele
Mittwoch, 9. April 14
/ 106
SKOS Simple Knowledge Organisation System
121
SKOS http://www.w3.org/2004/02/skos/
Unterstützt:
■Hierarchie
■ Assoziation
■ Vorzugsbenennung und Alternativbegriffe
■Matching (exactMatch, closeMatch)
Einfache, flexible, erweiterbare und maschinenlesbare Repräsentation für…
■Nomenklaturen
■ Klassifikationen
■ Taxonomien
■ Thesauri
Mittwoch, 9. April 14
/ 106122
http://www.jenitennison.com/visualisation/offences.html
Mittwoch, 9. April 14
/ 106123
Dublin Core
•Mindestsatz an Metadaten (Titel, Autor, Thema, Rechte...)
•generisches Format
•Empfehlungen zur Kodierung der Elemente z.B. Datum
• Integration in (X)HTML/XML/RDF gut dokumentiert
•Bewertung
sehr generisch
sehr verbreitet
verbessert 'Sichtbarkeit' für Suchmaschinen
Mittwoch, 9. April 14
/ 106
...und in kleinen Filmarchiven?
□Themen-, Genre- und Form Vokabulare oft nur in Englisch
□Vokabulare deutscher Rundfunkanstalten nicht öffentlich
□Viele kleinere IuD Einrichtungen nutzen eigene Vokabulare.
124
Name SKOS
IPTC Thesaurus International Press Telecommunication Council x
TGM Thesaurus for Graphic Materials (Library of Congress) X
FIAF GSH FIAF General Subject Headings X
MIM Moving Image Materials X
LCGFT Moving Image Genre-Form Headings (Library of Congress) X
REM ~6 Thesauri der deutschen Rundfunkanstalten -
kleine Archive
>200 Archive mit eigenen Klassifikationen. Wenige nutzen Thesauri, wenige haben Zugriff auf Verbunddaten der dt. Rundfunkanstalten. -
Mittwoch, 9. April 14
/ 106
■ Auf Grundlage von DC entwickelt
■Urheber: public broadcasting community (USA)
□Unterstützt analoge und digitale Medien
□XML-Schema verfügbar (online Validierung: http://pbcorevalidator.org/)
□ einzige Obligatorische Elemente: Identifier, Titel, Beschreibung
□Unterstützt Segmente innerhalb eines Assets
■ http://pbcore.org/wp-content/uploads/PBCoreDiagram-v2.jpg
125
Mittwoch, 9. April 14
/ 106126
CWS Cinematographic Works Standard
• CWS (Cinematographic Works Standard)
• Europäische Norm für Filmarchive (EN 15907:2010)
• Ausrichtung: Filmdatenbanken/Archivsoftware
• Mindestsatz von Elementen und Relationen
• Schnittstelle: Filmarchiv Analyse-Service
• Bewertung
berücksichtigt auch physisches Archivgut
generisches Datenformat
keine spatio-temporalen Metadaten
XML Schema: generisch, erweiterbar
Identifikation von Filmen - Verbesserung der Interoperabilität von Metadaten - Elementsätze und Strukturen; Deutsche Fassung EN 15907:2010
Mittwoch, 9. April 14
/ 106127
MPEG-7
• Vorschriften zur Kodierung von AV-Metadaten
• spatio-temporale (Frame, Segment, Streams)
• technische (Audio/Ton-Format, Kodierung, Low-Level-Features)
• inhaltserschließende (Abstract, Deskriptoren)
• Low-Level Features kodierbar (Textur, Form, Farben)
• Bewertung
Detaillierte Datentyp Restriktionen
mangelnde Kompatibilität mit Schnittprogrammen
hohe Komplexität/Abhängigkeiten
MPEG-7
Mittwoch, 9. April 14
/ 106128
MPEG-21
MPEG-21BenutzerWorkflowsSoftware...
GebührRegion/OrtZeit/DauerZugangscode...
FilmeMetadatenLizenzenRechte...
Rights Data Dictionary: Abspielen, Verändern, Einbetten...
• Digital Rights Management + Infrastruktur
Nutzer, Objekte, Bedingungen
• Bewertung
umfangreich und erweiterbar
Einbettung in MPEG-4 Container möglich
übergreifende DRM-Plattform notwendig
Mittwoch, 9. April 14
/ 106129
BMF: Broadcast Metadata exchange Format
•basiert auf FESAD (Fernseharchiv Datenbank)
•Module
•Erwerbung,
•Produktion,
•Programmplanung,
•Archivierung
•Datenaustausch mit Produktionsfirmen, TV-Sendern
• starke Ausrichtung öffentlich-rechtliches Fernsehen
•unterstützt inhaltserschließende & spatio-temporale Metadaten
•53 Wertelisten, die zu großen Teilen aus der Fernseharchivdatenbank (FESAD) übernommen wurden.
Mittwoch, 9. April 14
/ 106
Ontology for Media Resources
130
■W3C standardisiertEmpfehlung für Multimediadaten im Internet
■ simples erweiterbares Modell
■Unterstützt Fragment Identifier
■Mappings zu vielen MetadatenstandardsMPEG-7, EBU-Core, IPTC, TVA, DC
■Namespace: http://www.w3.org/ns/ma-ont#
Mittwoch, 9. April 14
/ 106
BBC Program Ontology
131
http://purl.org/ontology/po/
Mittwoch, 9. April 14
/ 106132
OAI-ORE
• OAI-ORE (Open Archives - Object Reuse and Exchange)
• strukturelle Metadaten für Webressourcen(Zusammensetzung, Abgrenzung, Zugehörigkeit)
• Ressourcen (URIs) = Collection/Film/Segment/Tag
• 'Navigationshilfe' für Metadaten-Harvester
• automatisierter Datenaustausch zwischen Repositories
Mittwoch, 9. April 14
/ 106133
Definition of the Europeana Data Model elementsVersion 5.2, 30/7/2010
Mittwoch, 9. April 14
/ 106134
Dublin Core
OAI-ORE
BBC SMEF
P_Meta
TV-Anytime
EAD
ISAD(G)*
CIDOC-CRM
WWWBibliotheken
Archive AV Sektor
VRA
FIAF*
CWS
MODS
RDA
MARC/MAB
BMF
REM*
MPEG-7
MPEG-21PBCore
DMS-1/MXF
Weitere Formate und Regelwerke
LIDO
EDM
OAI
SPECTRUM
RAK-WB*
AACR*
EBUcore
W3C Mediaontology
PREMIS
Mittwoch, 9. April 14
/ 106
EUROPEANA
135
Mittwoch, 9. April 14
/ 106136
Mittwoch, 9. April 14
/ 106137
Mittwoch, 9. April 14
http://semex.hpi.uni-potsdam.de/semex/
Mittwoch, 9. April 14
139
C. Hentschel, H. Sack, et al., Open up cultural heritage in video archives with mediaglobe, I2CS 2012
http://semex.hpi.uni-potsdam.de/semex/
Mittwoch, 9. April 14
Mittwoch, 9. April 14
How to Search in Multimedia Archives?
Mittwoch, 9. April 14
142
Searching the WebMittwoch, 9. April 14
143
Searching the WebMittwoch, 9. April 14
144
Mittwoch, 9. April 14
145
Google Knowledge Graph
= “search results with semantic- search information gathered from a wide variety of sources“
Mittwoch, 9. April 14
Google Multimedia SearchMittwoch, 9. April 14
‣Google Multimedia Search relies on text-based metadata and link context
How does Google find Multimedia?
Mittwoch, 9. April 14
Seach by Media Content
Mittwoch, 9. April 14
The Ordinary Archive is a Small World...
Neil Armstrong
Mittwoch, 9. April 14
But, wouldn‘t it be nice, if.....
Neil Armstrong
...but maybe you are also interested in
- Buzz Aldrin (1 videos)- John Glen (1 video)- Juri Gagarin (2 videos)
- Richard Nixon (3 videos)
- Apollo 11 (1 video)- NASA (20 videos)
- Moon (14 videos)
- space exploration (34 videos)
- technology (1.205 videos)
Sorry, no results found for ‘Neil Armstrong‘...
Mittwoch, 9. April 14
How to Search in Multimedia Archives?
Mittwoch, 9. April 14
Jörg Waitelonis, Hasso-Plattner-Institut Potsdam
Content-Based Search in Multimedia Archives relies on text-based Metadata Current Solution: Manual Annotation
Mittwoch, 9. April 14
image
VisualConceptDetection
Text Recognition
Visual Analysis
(Selected) Automated Media Analysis
Face Detection
Face Detection
Logo Detection
audio-visual
text / images
Audio-Mining
structuralanalysis
AutomatedSpeech
Recognitionaudio event detection
audio
Mittwoch, 9. April 14
Structural Video Analysis
• Decomposition of time-based media into meaningful media fragments of coherent content that can be used as basic element for indexing and classification
scenes
shots
subshots
frames
video
keyframes
Mittwoch, 9. April 14
Video Optical Character Recognition (OCR)
Fig. 1. Workflow of the proposed text detection method. (b) is the vertical edge map of (a). (c) is the vertical dilation map of(b). (d) is the binary map of (c). (e) the result map of subsequent connected component analysis. (f) shows the binary map afterthe adaptive projection profile refinement. (g) is the final detection result.
for text detection of nature scene images. The operator com-putes for each pixel the width of the most likely stroke con-taining the pixel. The output of the operator is a stroke-featuremap, which has the same size as the input image, while eachpixel represents the corresponding stroke width value of theinput image.
3. TEXT DETECTION IN VIDEO IMAGES
Text detection is the first task of video OCR. Our approachdetermines, whether a single frame of a video file containstext lines, for which a tight bounding box is returned. In or-der to manage detected text lines efficiently, we have defined aclass ”text line object” with the following properties: bound-ing box location (the top-left corner position), bounding boxsize. After the first round of text detection, the refinement andthe verification procedures ensure the validity of the detectionresults in order to reduce false alarms.
3.1. Text detector
Before performing the text detection process, a gaussiansmooth filter is applied to the images that have an entropyvalue larger than a predefined threshold Tentr . For our pur-pose, Tentr =5.25 has proven to be to the best advantage.
We have developed an edge based text detector, subse-quently referred to edge text detector. The advantage of ourdetector is its computational efficiency compared to other ma-chine learning based approaches, because no computation-ally expensive training period is required. However, for vi-sually different video sequences a parameter adaption has tobe performed. The best suited parameter combination of ourmethod were learned from the test runs on the given test data.
Fig. 2. Workflow of the proposed adaptive text line refinementprocedure
The processing workflow for a single frame is depictedin Fig. 1 (a-e). First, a vertical edge map is produced usingSobel filter [8] (cf. Fig. 1 (b)). Then, the morphological dila-tion operation is adopted to link the vertical character edgestogether (cf. Fig. 1 (c)). Let MinW denote the detected min-imal text line width. A rectangle kernel:1�MinW is definedfor vertical dilation operator. Subsequently, a binary maskis generated by using Otsu’s thresholding method [9]. Ulti-mately, we create a binary map after Connected Component
• Video OCR is much more difficult than traditional print OCR• fast detection/filtering of text candidates• verification of text candidates• script separation from background• visual quality enhancement• application of standard OCR software• spell correction w.r.t. context and temporal
redundancy
Mittwoch, 9. April 14
• Face DetectionDetect candidate image regionsin a video frame that depict a human face
• Face TrackingTrack a detected face in videoover consecutive frames within shot boundaries
• Face ClusteringGroup faces detected and tracked in videos into visually similar sets within a single video
• Face Recognition/IdentificationReliable identification of detected faces
Video Face Detection, Tracking & Clustering
personfrontal face:90%
not a person
personprofile face:70%
Mittwoch, 9. April 14
Visual Concept Detection
• Adaption of traditional ,Bag of Words‘ approach from text retrieval
• Image is expressed as vector (histogram)of dictionary codeword frequencies
• classification via machine learning(Support Vector Machines)
• Konzeptzuordnung durch maschinelles Lernverfahren (hier Support Vector Machines)
Mittwoch, 9. April 14
Annotation of Audiovisual Data
Metadata Extraction
Metadata (e.g. MPEG-7) ... <SpatialDecomposition> <TextAnnotation> <KeywordAnnotation> <Keyword>Astronaut</Keyword> </KeywordAnnotation> </TextAnnotation> <SpatialMask> <SubRegion> <Polygon> <Coords> 480 150 620 480 </Coords> </Polygon> </SubRegion> </SpatialMask> ... </SpatialDecomposition> ...
• Multimedia data with spatiotemporal Annotations
Neil Armstrong
Mittwoch, 9. April 14
www.yovisto.com
Mittwoch, 9. April 14
• Authoritative Metadata• structured data• semi-structured data
• natural language text • Non-authoritative Metadata
• (free) user tags and comments• restricted vocabularies
• (Media) Analysis Metadata• low level features• high level features
• etc.
How to Determine the Meaning of Metadata?
SemanticAnalysis
reliability
context
pragmatics
location dependency
accuracy
timedependency
level ofabstraction
Mittwoch, 9. April 14
Neil Armstrong
Astronaut
is a
Person
is a
Science Occupation
subClassOf
Employment
subClassOf
Entities
Ontologies
has an
,Neil Armstrong‘ is more than just a character string
Kosmonautsame as
Juri Gagarin
is a
is NOT a
!
Mittwoch, 9. April 14
Where does the knowledge come from...?
Mittwoch, 9. April 14
Astronaut Person
Neil Armstrong
Science Occupation
Employment
is a is a
is a
is a has a
Web of Data
Mittwoch, 9. April 14
Web of Data = Linked Open DataBut what, if there is no trivial unique identification?
Armstronguser tag
Mittwoch, 9. April 14
Armstrong
Mittwoch, 9. April 14
ArmstrongArmstrong+Moon
Mittwoch, 9. April 14
Web of Data = Linked Open DataUnderstanding requires Context
Armstrong
Moon
EagleSpace
Mittwoch, 9. April 14
4242 42 4224424242 42 4242Semantic AnalysisSemantics is determined by Context
Context Item
N.Steinmetz, H.Sack: Semantic Multimedia Information Retrieval Based on Contextual Descriptions, 2013
„Armstrong landed the Eagle on the Moon.“Text
SEMEX Multimedia Context Model
Context Dimensions
TemporalContext
SpatialContext
ProvenanceContext
Relevance
determines
Ambiguity
influences
Accuracy
influences
Contextual Description
ClassDiversity
Level of Structure
SourceReliability
SourceDiversity
Mittwoch, 9. April 14
Armstrong
George Armstrong Custer
Neil Armstrong
The Armstrong Twins
Armstrong, Florida
Armstrong, Ontario
Armstrong Automobile
Joe ArmstrongArmstrong County, Texass
Armstrong Gun
Craig Armstrong
Armstrong (Moon Crater)
Louis Armstrong
Armstrong Tunnel
Louis Armstrong International Airport
Armstrong‘s Theorem
Sir Thomas Armstrong
Ian Armstrong
Eagle Moon
Eagle (Bird)
Eagle (heraldry)
USCGC Eagle
The Eagle (2011 film)
Eagle (song)
John H. EagleEagle (typeface)
Eagle Falls (Washington)
Eagle (Moon Crater)
Eagle (comic)
Eagle (lunar module)
Eagle TV
Armstrong Tunnel
The Eagle (Pub)
War Eagle
The Eagle (newspaper)
Eagle (racehorse)
Angela EagleLinda Eagle
James Philipp Eagle
95 entities448 entities
Armstrong (British Columbia)Karen Armstrong
Curtis Armstrong
Gillian Armstrong Hilary Armstrong
William L. Armstrong
156 entities
Man on the Moon (film)
Moon (song)
Moon Son-Ri
C Moon
The Moon (Tarot card)
Edgar Moon
Moon OSMoon (Band)
Moon
Moon 44
Man on the Moon (soundtrack)
William Moon
Lottie Moon
Mr. Moon (song)
Man on the Moon (musical)
Darvin Moon
Moon 83
Francis MoonGary Moon
Robert Charles Moon
Black Moon
Allan Moon
Ban-Ki Moon
Fly me to the Moon (song)
Semantic AnalysisNamed Entity Mapping
„Armstrong landed the Eagle on the Moon.“
Consider all entities within the same context
Mittwoch, 9. April 14
Select matching entities from all possible candidate entities: • Popularity based strategies• Linguistical strategies• Statistical strategies• Semantic based strategies
General Approach1. Make an assumption 2. Do the strategies support or contradict your assumption3. Make decision according to logical and probabilistic rules/constraints
Semantic AnalysisNamed Entity Recognition
N. Ludwig, H. Sack, “Named entity recognition for user-generated tags,TIR 2011
• reference text corpus(wikipedia)
• link graph (wikipedia)• semantic graph
(DBpedia)
Entity Selection Process
Mittwoch, 9. April 14
Armstrong
George Armstrong Custer
The Armstrong Twins
Armstrong, Florida
Armstrong, Ontario
Armstrong Automobile
Joe ArmstrongArmstrong County, Texass
Armstrong Gun
Craig Armstrong
Armstrong (Moon Crater)
Armstrong Tunnel
Louis Armstrong International Airport
Armstrong‘s Theorem
Sir Thomas Armstrong
Ian Armstrong
Eagle Moon
Eagle (Bird)
Eagle (heraldry)
USCGC Eagle
The Eagle (2011 film)
Eagle (song)
John H. EagleEagle (typeface)
Eagle Falls (Washington)
Eagle (Moon Crater)
Eagle (comic)
Eagle TV
Armstrong Tunnel
The Eagle (Pub)
War Eagle
The Eagle (newspaper)
Eagle (racehorse)
Angela EagleLinda Eagle
James Philipp Eagle
95 entities448 entities
Armstrong (British Columbia)Karen Armstrong
Curtis Armstrong
Gillian Armstrong Hilary Armstrong
William L. Armstrong
156 entities
Man on the Moon (film)
Moon (song)
Moon Son-Ri
C Moon
The Moon (Tarot card)
Edgar Moon
Moon OSMoon (Band)
Moon 44
Man on the Moon (soundtrack)
William Moon
Lottie Moon
Mr. Moon (song)
Man on the Moon (musical)
Darvin Moon
Moon 83
Francis MoonGary Moon
Robert Charles Moon
Black Moon
Allan Moon
Ban-Ki Moon
Neil Armstrong
Eagle (lunar module)
Moon
Louis Armstrong
Fly me to the Moon (song)
Semantic AnalysisNamed Entity Recognition
„Armstrong landed the Eagle on the Moon.“
N. Steinmetz, H.Sack: Semantic Multimedia Information Retrieval Based on Contextual Descriptions, 2013
Entity Selection Process(Semantic) Graph Analysis
Mittwoch, 9. April 14
4242 42 4224424242 42 4242
Jörg Waitelonis, Hasso-Plattner-Institut Potsdam
172
Semantically Annotated Multimedia
Video Analysis /Metadata Extraction
timemetadata
metadatametadata
metadatametadata
e.g., person xylocation yzevent abc
e.g., bibliographical data,geographical data,encyclopedic data, ..
Entity Recognition/ Mapping
N. Ludwig, H. Sack: Named Entity Recognition for User-Generated Tags. In Proc. of the 8th Int. Workshop on Text-based Information Retrieval, IEEE CS Press, 2011
Mittwoch, 9. April 14
Vorlesung Semantic Web, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam
173
Explorative Search
dbpedia-owl:mission
dbpedia:Neil_Armstrong
dbpedia:Apollo_11dbpedia-owl:mission
category:Apollo_program
dcterms:subject
dbpedia:Apollo_13
dcterms:subject
yago:Space_accidents_and_incidents
rdf:type
rdf:type
dbpedia:Space_Shuttle_Challenger
dbpedia-owl:mission
http://mediaglobe.yovisto.com:8080/J. Waitelonis, H. Sack: Towards exploratory video search using linked data, MTAP Volume 59, Number 2 (2012), 645-672
dbpedia:Buzz_Aldrin
dbpedia:Michael_Collins
Mittwoch, 9. April 14
Exploratory Search and Serendipity•Find something that you were not looking for on purpose ...
dbpedia:Buzz_Aldrin
dbpedia:Cookie_Monster
dbpedia:Strictly_Come_Dancing
dbpedia:Transformers
Mittwoch, 9. April 14
Metadatenfür Medienarchive
Contact: Dr. Harald SackHasso-Plattner-Institute for IT Systems EngineeringUniversity of PotsdamGermanyharald.sack@hpi.uni-potsdam.de
Vielen Dank für Ihre Aufmerksamkeit!
Mittwoch, 9. April 14
176
Der Online-Kurs startet am 26.05.2014
Mittwoch, 9. April 14