"Warum Metadaten? Ein Plädoyer und mehr …" - webtechcon 2011 Präsentation

Post on 11-Jul-2015

846 views 1 download

transcript

Sasaki  –  Webtechcon  2011  

Warum  Metadaten?  Ein  Plädoyer  und  mehr  …  

Felix  Sasaki  DFKI  /  FH  Potsdam  felix.sasaki@dIi.de  

1  

Sasaki  –  Webtechcon  2011  

Überblick  

•  Metadaten:  Warum?  •  Geschichte  •  Metadaten  im  Web  •  Metadaten  und  Websearch  •  Metadaten  und  Sprachtechnologie  •  Fazit  

2  

Sasaki  –  Webtechcon  2011  

Warum  Metadaten?  

3  

Sasaki  –  Webtechcon  2011  

Warum  Metadaten?  (1)  

4  

Nicht  überall  hineinschauen  

müssen  

Sasaki  –  Webtechcon  2011  

Warum  Metadaten?  (2)  

5  

Nicht  überall  hineinschauen  

können  

...  

Sasaki  –  Webtechcon  2011  

Warum  Metadaten?  (3)  

6  

Prozesse  steuern  

Wo  soll  ich  hin?  

Sasaki  –  Webtechcon  2011  

Überblick  

•  Metadaten:  Warum?  •  Geschichte  •  Metadaten  im  Web  •  Metadaten  und  Websearch  •  Metadaten  und  Sprachtechnologie  •  Fazit  

7  

Sasaki  –  Webtechcon  2011  

Bibliotheken:  Ursprung  von  Metadaten  

8  

Sasaki  –  Webtechcon  2011  

Bibliotheken:  Ursprung  von  Metadaten  

9  

Sasaki  –  Webtechcon  2011  

Bibliotheken:  Ursprung  von  Metadaten  

10  

Sasaki  –  Webtechcon  2011  

Metadaten:  nicht  überall  hereinschauen  können  

11  

?  

Sasaki  –  Webtechcon  2011  

Metadaten:  Standardisierung  hil_  

12  

Bibliotheks-­‐klassifikabon  

Sasaki  –  Webtechcon  2011  

Standardisierung  hil_?  

13  

Dewey  Decimal  Classificabon  

Library  of  Congress  Classificabon  Nippon  Decimal  Classificabon  

Chinese  Library  Classificabon  

Universal  Decimal  Classificabon  

Regensburger  Verbundklassifikabon  Basisklassifikabon  

…  

Sasaki  –  Webtechcon  2011  

Man  muss  wissen  wo(für)  

14  

Dewey  Decimal  Classificabon  

Library  of  Congress  Classificabon  Nippon  Decimal  Classificabon  

Chinese  Library  Classificabon  

Universal  Decimal  Classificabon  

Regensburger  Verbundklassifikabon  Basisklassifikabon  

…  Geeignet  je  nach  Region,  Sprache,  wissenscha_lich  vs.  allgemein,  Fachgebiet,  ...  

Sasaki  –  Webtechcon  2011  

Überblick  

•  Metadaten:  Warum?  •  Geschichte  •  Metadaten  im  Web  •  Metadaten  und  Websearch  •  Metadaten  und  Sprachtechnologie  •  Fazit  

15  

Sasaki  –  Webtechcon  2011  

Metadaten  im  Web  –  überall!  

16  

Sasaki  –  Webtechcon  2011   17  

Von  hkp://www.w3.org/TR/webarch/    

Sasaki  –  Webtechcon  2011   18  

Idenbfikatoren  

Von  hkp://www.w3.org/TR/webarch/    

Sasaki  –  Webtechcon  2011   19  

Idenbfikatoren  

HTTP  Header  

Von  hkp://www.w3.org/TR/webarch/    

Sasaki  –  Webtechcon  2011   20  

Idenbfikatoren  

HTTP  Header  

Doctype  

Von  hkp://www.w3.org/TR/webarch/    

Sasaki  –  Webtechcon  2011   21  

Idenbfikatoren  

HTTP  Header  

Doctype  

Im  Inhalt  

Von  hkp://www.w3.org/TR/webarch/    

Sasaki  –  Webtechcon  2011  

Metadaten  im  Inhalt  –  für  ausgewählte  Zielgruppen  

22  

<span  xml:lang="zh-­‐CN">[雪 zh-­‐CN]</span>  <span  xml:lang="ja">[  雪 ja]</span>  <span  xml:lang="ko">[  雪 ko]</span>  

Sprachtags  zur  Glyphauswahl  

Sasaki  –  Webtechcon  2011  

Metadaten  im  Inhalt  –  für  ausgewählte  Zielgruppen  

23  

WAI-­‐ARIA  für  Accessibility  

Sasaki  –  Webtechcon  2011  

Metadaten  im  Inhalt  –  für  jeden  das  Passende  

•  Metadaten  und  CSS  –  was  ist  der  Unterschied?  •  Keiner  –  nur  (potenbell)  unterschiedliche  Zielgruppen  

•  Metadaten  =  „Styling  für  besondere  Zwecke“  

24  

Sasaki  –  Webtechcon  2011  

Metadaten  für  Webdeveloper  –  Warum:  Bringt  Nutzen  

•  Idenbfikatoren:  Verlinke  mich!  •  HTTP  Header:  Finde  mich!  •  Doctype:  Wähle  die  richbge  Engine!  •  Sprachtags:  Wähle  passendes  Layout!  •  WAI-­‐ARIA:  Mache  mich  zugänglich!  

25  

Sasaki  –  Webtechcon  2011  

Zwischenfazit:  Metadaten  setzen  sich  durch  

•  Wenn  es  die  richbge  Mischung  gibt  – Metadatenproduzenten  – Metadatenkonsumenten  – Tools  die  beide  unterstützen  – Tolle  (=  besser  als  bisher)  Anwendungen  

26  

Sasaki  –  Webtechcon  2011  

Zwischenfazit:  Metadaten  setzen  sich  durch  

•  Wenn  es  die  richbge  Mischung  gibt  – Metadatenproduzenten  – Metadatenkonsumenten  – Tools  die  beide  unterstützen  – Tolle  (=  besser  als  bisher)  Anwendungen  

27  

Triw  zu  für  Dosenproduzenten,  Bibliotheken  und  das  Web  ...  

Sasaki  –  Webtechcon  2011  

Überblick  

•  Metadaten:  Warum?  •  Geschichte  •  Metadaten  im  Web  •  Metadaten  und  Websearch  •  Metadaten  und  Sprachtechnologie  •  Fazit  

28  

Sasaki  –  Webtechcon  2011  

Metadaten  und  Web  Search:  zunächst  ein  trauriges  Kapitel  ...  

29  

Metadaten  rausschmeißen    

Volltext-­‐index  

Suchanfrage  

Sasaki  –  Webtechcon  2011  

Was  wird  rausgeschmissen  

•  Sprachinformabon  ("xml:lang")  •  "meta"  tags  – keywords  – subject  –  language,  – copyright,  – date,  ...  

30  

Sasaki  –  Webtechcon  2011  

Eine  (Miss?)erfolgsstory:  Webverzeichnisse  

•  =  (Bibliotheks)katalog  des  Web  – Beispiel  „Open  Directory  Project“  

•  Kribk  – Hierarchische  Struktur  –  das  (soziale)  Netz  ist  ein  Graph!  

– Wem  gehört  das?  – Wer  trägt  bei?  

•  Dieses  Jahr  geschlossen:  „Google  Directory“  

31  

Sasaki  –  Webtechcon  2011  

Metadaten  unverzichtbar:  Mulbmedia  

32  

Sasaki  –  Webtechcon  2011  

Mulbmedia:  Ein  Wald  von  Metadaten-­‐Formaten  

33  

XMP  

Dublin  Core  

ID3  

EXIF  

YouTube  

CableLabs  Flash  

MP4  

...  

Sasaki  –  Webtechcon  2011  

W3C  „Ontology  for  Media  Resources“:  Mapping  macht  das  Leben  leichter  

34  

Sasaki  –  Webtechcon  2011  

W3C  „Ontology  for  Media  Resources“:  Mapping  macht  das  Leben  leichter  

35  

Mapping  Definibon:  hkp://www.w3.org/TR/mediaont-­‐10/    API  zur  übergreifenden  Abfrage:  hkp://www.w3.org/TR/mediaont-­‐api-­‐1.0/        

Sasaki  –  Webtechcon  2011  

Web  Search  ohne  Metadaten:  Suche  nach  „Bank“  

36  

Sasaki  –  Webtechcon  2011  

Zwischenfazit  (Wdh.):  Metadaten  setzen  sich  durch  

•  Wenn  es  die  richbge  Mischung  gibt  – Metadatenproduzenten  – Metadatenkonsumenten  – Tools  die  beide  unterstützen  – Tolle  (=  besser  als  bisher)  Anwendungen  

37  

Sasaki  –  Webtechcon  2011  

Zwischenfazit  (Wdh.):  Metadaten  setzen  sich  durch  

•  Wenn  es  die  richbge  Mischung  gibt  – Metadatenproduzenten:  Webdeveloper,  CMS  (z.B.  Drupal)  

– Metadatenkonsumenten:  Suchmaschinen  – Tools  die  beide  unterstützen:  Rich  Snippets  Tesbng  Tool    

– Tolle  (=  besser  als  bisher)  Anwendungen:  Die  „richbge“  Bank  finden    

38  

Sasaki  –  Webtechcon  2011  

schema.org  

•  Vokabular  von  Metadaten  •  Von  Bing,  Google,  Yahoo!  „verstanden“  •  Kann  das  „Bank“  Problem  lösen  

39  

Sasaki  –  Webtechcon  2011  

schema.org  

40  

Sasaki  –  Webtechcon  2011  

schema.org:  häufige  Typen  •  Creabve  works:  CreabveWork,  Book,  Movie,  MusicRecording,  Recipe,  TVSeries  ...  

•  Embedded  non-­‐text  objects:  AudioObject,  ImageObject,  VideoObject  

•  Event  •  Organizabon  •  Person  •  Place,  LocalBusiness,  Restaurant  ...  •  Product,  Offer,  AggregateOffer  •  Review,  AggregateRabng  

41  

Sasaki  –  Webtechcon  2011  

schema.org  

42  

Ein  Vokabular  

Schreibweise  RDFa  

Schreibweise  Microdata  

Sasaki  –  Webtechcon  2011  

schema.org  

43  

Ein  Vokabular  

Schreibweise  RDFa  

Schreibweise  Microdata  

Brücke  zum  Semanbc  Web  

Sasaki  –  Webtechcon  2011  

schema.org  

44  

Ein  Vokabular  

Schreibweise  RDFa  

Schreibweise  Microdata  

Brücke  zum  Semanbc  Web  

Auf  schema.org  verwendet  

Sasaki  –  Webtechcon  2011  

schema.org  

45  

Ein  Vokabular  

Schreibweise  RDFa  

Schreibweise  Microdata  

Brücke  zum  Semanbc  Web  

Auf  schema.org  verwendet  

entscheidend  

Sasaki  –  Webtechcon  2011  

schema.org:  Vokabulare  

46  

Bike  mit  entscheiden!  

Sasaki  –  Webtechcon  2011  

Überblick  

•  Metadaten:  Warum?  •  Geschichte  •  Metadaten  im  Web  •  Metadaten  und  Websearch  •  Metadaten  und  Sprachtechnologie  •  Fazit  

47  

Sasaki  –  Webtechcon  2011  

Metadatenlücke  in  der  maschinellen  Übersetzung  (vgl.  wtc  2010)  

•  Eingabe  aus  www.postbank.de  „Ob  Postbank  direkt,  Online-­‐Banking,  Online-­‐Brokerage  oder  myBHW.  Die  häufigsten  Fragen  zu  unseren  Transakbonssystemen  finden  Sie  an  dieser  Stelle.“    

•  Ausgabe  via  online  MT  system  “Whether  Postbank  direct,  online  banking,  online  brokerage  or  myBHW.  Frequently  asked  quesbons  about  our  transacbon  systems  can  be  found  at  this  locabon.”  

48  

Sasaki  –  Webtechcon  2011  

Metadatenlücke  in  der  maschinellen  Übersetzung  (vgl.  wtc  2010)  

•  Eingabe  aus  www.postbank.de  „Ob  Postbank  direkt,  Online-­‐Banking,  Online-­‐Brokerage  oder  myBHW.  Die  häufigsten  Fragen  zu  unseren  Transakbonssystemen  finden  Sie  an  dieser  Stelle.“    

•  Ausgabe  via  online  MT  system  “Whether  Postbank  direct,  online  banking,  online  brokerage  or  myBHW.  Frequently  asked  quesbons  about  our  transacbon  systems  can  be  found  at  this  locabon.”  

Terminologie    wurde  fälschlicherweise  übersetzt  –  warum?  

49  

Sasaki  –  Webtechcon  2011  

Prozess:  vom  „Deep  Web“  zum  „Surface  Web“  

•  Eingabe  aus  dem  „Deep  Web“:  „Ob  <term>Postbank  direkt</term>,  <term>Online-­‐Banking</term>,  <term>Online-­‐Brokerage</term>  …“    

•  Ausgabe  im  Web:  „Ob  <em>Postbank  direkt</em>,  <em>Online-­‐Banking</em>,  <em>Online-­‐Brokerage</em>  …“    

Terminology  (=  metadata)  …  

 …  ist  verloren  im  Web  L  

Publikabons-­‐  prozess  

50  

Sasaki  –  Webtechcon  2011  

Zukün_ige  W3C  Arbeitsgruppe  „MLW-­‐LT“:  Metadatenlücken  schließen  •  DFKI  •  Trinity    College  Dublin  •  Dublin  City  University  •  Moravia  •  Univ.  of  Econ.  Prague  •  Microso_  •  Enlaso  

•  Insbtut  Jozef  Stefan  •  University  of  Limerick  •  Cocomore  •  Linguaserve  •  VistaTEC  •  Lucy  So_ware  •  Alchemy  So_ware  

51  

W3C  als  Ort  der  Standardisierung  

Sasaki  –  Webtechcon  2011  

Zukün_ige  W3C  Arbeitsgruppe  „MLW-­‐LT“:  Metadatenlücken  schließen  •  DFKI  •  Trinity    College  Dublin  •  Dublin  City  University  •  Moravia  •  Univ.  of  Econ.  Prague  •  Microso_  •  Enlaso  

•  Insbtut  Jozef  Stefan  •  University  of  Limerick  •  Cocomore  •  Linguaserve  •  VistaTEC  •  Lucy  So_ware  •  Alchemy  So_ware  

52  

W3C  als  Ort  der  Standardisierung  

Sasaki  –  Webtechcon  2011  

Zwischenfazit  (Wdh.):  Metadaten  setzen  sich  durch  

•  Wenn  es  die  richbge  Mischung  gibt  – Metadatenproduzenten  – Metadatenkonsumenten  – Tools  die  beide  unterstützen  – Tolle  (=  besser  als  bisher)  Anwendungen  

53  

Sasaki  –  Webtechcon  2011  

Zwischenfazit  (Wdh.):  Metadaten  setzen  sich  durch  

•  Wenn  es  die  richbge  Mischung  gibt  – Metadatenproduzenten:  Lokalisierungsfirmen,  Webdeveloper,  CMS  Provider,  ...  

– Metadatenkonsumenten:  MT  Tools,  Lokalisierungsfirmen  

– Tools  die  beide  unterstützen:  Online  MT  Tools  – Tolle  (=  besser  als  bisher)  Anwendungen:  Bessere  Sprachtechnologie  

54  

Sasaki  –  Webtechcon  2011  

Überblick  

•  Metadaten:  Warum?  •  Geschichte  •  Metadaten  im  Web  •  Metadaten  und  Websearch  •  Metadaten  und  Sprachtechnologie  •  Fazit  

55  

Sasaki  –  Webtechcon  2011  

Fazit  =  Zwischenfazit:  Metadaten  setzen  sich  durch  

•  Wenn  es  die  richbge  Mischung  gibt  – Metadatenproduzenten  – Metadatenkonsumenten  – Tools  die  beide  unterstützen  – Tolle  (=  besser  als  bisher)  Anwendungen  

56  

Sasaki  –  Webtechcon  2011  

Warum  Metadaten?  Ein  Plädoyer  und  mehr  …  

Felix  Sasaki  DFKI  /  FH  Potsdam  felix.sasaki@dIi.de  

57