1
Die Digitale Bibliothek
Erschließung
Dr. Michael W. Mönnich
3
Erschließung: Aufgabe der Bibliothek
Erwerbung von Literatur und Informationsträgern
Erschließung von Information
Bereitstellung bzw. Vermittlung von Literatur und Informationen
4
Erschließung: Aufgabe der Bibliothek
Erwerbung von Literatur und Informationsträgern
Erschließung von Information ist eine klassische Au fgabe der Bibliotheken
5
Überblick: Formale Erschließung
Regelwerke für die formale Erschließung• PI, RAK, AACR
Datenformate
• MAB, MARC, DC
Praxis der formalen Erschließung
• Kooperative Verbundkatalogisierung, Überregionale Verbundkataloge, ZDB, Virtuelle Kataloge, Normdateien
Anwendung der Formalerschließung in Lokalsystemen
• Uni-Katalog
6
Überblick: Inhaltliche Erschließung
Inhaltliche Erschließung
Klassifikatorische Sacherschließung •Universalklassifikationen•Fachklassifikationen
- ACM-Klassifikation- Thesaurus- MESH
Verbale Sacherschließung•Schlagworte, RSWK
Anwendung der Sacherschließung im Lokalsystem
Neue Formen inhaltlicher Erschließung•Recommender, Clusterbildung, Web 2.0
7
Formale Erschließung
"Die formale Erschließung beschreibt ein Dokument unabhängig vom Inhalt entsprechend festgelegten Regeln"
� Regelwerke
8
Preußische Instruktionen
Titelaufnahme nach Preußischen Instruktionen (PI)
1899: Instruktionen für die alphabetische Katalogisierung an preußischen Bibliotheken
Bsp: DigiKat HD *
9
Regeln für die Alphabetische Katalogisierung (RAK)
•Regeln für die Alphabetische Katalogisierung - 1977 (Voll-RAK)•Regeln für wissenschaftliche Bibliotheken - 1983 (RAK-WB)
•Regeln für Öffentliche Bibliotheken - 1986 (RAK-ÖB)
•Regeln für die Ansetzung von Körperschaften - 1988 (RAK-Körperschaften)
•Regeln für wissenschaftliche Bibliotheken - 2. Aufl. 1993ff (ersetzt RAK-WB, 1. Aufl. und die RAK-Körperschaften)
•Sonderregeln für spezielle Materialien
•RAK-Musik: Noten und Musiktonträger•RAK-Karten
•RAK-NBM (Nichtbuchmaterialien: maschinenlesbare Dokumente sowie: Tonträger, Bildtonträger u.ä.; Integrieren RAK-AV).
• (ferner: RAK-UW)
=> RAK ist ein Regelwerk für den alphabetischen Zettel katalog <=
10
Regeln für die Alphabetische Katalogisierung (RAK)
11
Datenformate: MAB
•Format
12
MAB
•Format
13
MAB
•Format
14
MAB- Beispiel
15
MAB- Beispiel
16
MAB- Beispiel
Lokalsatz
17
MARC
18
MARC
20
Dublin Core
Dublin Core Metadata Initiativehttp://dublincore.org/
•W3-Standard von 1996 für die formale und inhaltliche Beschreibung von Informationsressourcen im Internet
•HTML-Dokumente, auch Bilder, Filme, (Bücher)
•15 Elemente, Unterelemente möglich
•Wiederholbarkeit: Alle Elemente können mehrmals in einem Datensatz auftreten
•Veränderbarkeit: Jedes Element kann durch die Angabe eines Attributs verändert werden, wenn dadurch eine spezifische Interpretation des Inhalts vorgegeben wird. Dazu wird ein Verweis auf das Klassifikationsschema angegeben
21
DC
22
15 Elemente von DC
23
DC qualified
Bei qualified Dublin Core werden Spezialisierungen (Refinements) und Inhalts- bzw. Formatvorgaben (encodingschemes) vorgegeben (Refinements)
Title: Alternative (zweiter Titel, der als Ersatz für den "Haupttitel" verwendet werden kann)
Description: Table of Contents (Inhaltsverzeichnis), Abstract (Zusammenfassung)
Date: Created (erzeugt), Valid (gültig), Available (verfügbar), Issued (veröffentlicht), Modified (geändert)
Format: Extent (Größe oder Dauer), Medium (Material oder Datenträger)
Relation: Is Version Of (ist eine Version von), Has Version (hat eine Version), Is Replaced By (wurde ersetzt durch), Replaces (ersetzt), Is Required By (wird benötigt von), Requires (benötigt), Is Part Of (ist Teil von), Has Part (hat Teil), Is Referenced By (es wird darauf verwiesen von), References (verweist auf), Is Format Of (der gleiche Inhalt wird in anderem Format dargestellt von), Has Format (ist eine Darstellung in anderem Format von),
Coverage: Spatial (räumlich), Temporal (zeitlich)
und folgende Formatempfehlungen:
Subject: LCSH (Library of Congress Subject Headings), MeSH (Medical Subject Headings), DDC (Dewy DecimalClassification), LCC (Library of Congress Classification), UDC (Universal Decimal Classification)
Date: DCMI Period (Dublin-Core-Format für Zeiträume), W3C-DTF (W3C-Format für Datum und Zeit, basierend auf ISO 8 601)
Type: DCMI Type Vocabulary (Dublin-Core-Vokabular für Dokumenttypen)
Format: IMT (Medientyp (Internet Media Type))
Identifier: URI (Uniform Resource Identifier)
Language: ISO 639-2 (ISO-Norm mit Buchstaben-Codes für Sprachen), RFC 1766 (Erweiterung der ISO-Norm mit Ländercodes)
Relation: URI (Uniform Resource Identifier)
Coverage (räumlich): DCMI Point (Dublin-Core-Spezifikation nach räumlichen Koordinaten), ISO 3166 (ISO-Spezifikation für Ländernamen), DCMI Box (Dublin-Core-Definition einer geografischen Fläche), TGN (Getty-Thesaurus geografischer Namen)
Coverage (zeitlich): DCMI Period (Dublin-Core-Format für Zeiträume), W3C-DTF (W3C-Format für Datum und Zeit basierend auf ISO-8601)
24
DC
Defizite von DCKeine Normierung der Datenrepräsentationen
•Creator: Michael W. Mönnich ?= Creator: Moennich, Michael
Kein Stammdatenkonzept, z.B. als Schema•Universität Karlsruhe (TH) ?= Karlsruhe, University ?= KIT
Keine Unterstützung von Identifiern außer URN, URL: z.B. ISBN, ISSN
25
Kooperative Katalogisierung
26
Verbundsysteme: Karte
27
Verbundsysteme
28
Verbundsysteme
29
Verbundsysteme: SWB-Katalog
http://pollux.bsz-bw.de/
30
Verbundsysteme : SWB-Katalog
31
Verbundsysteme : SWB-Katalog
32
Verbundsysteme : SWB-Katalog
33
Verbundsysteme : Dateneingabe
34
Verbundsysteme : Dateneingabe
Dateneingabe
35
Verbundsysteme : Dateneingabe
36
Verbundsysteme : SWB-Dateneingabe
37
Verbundsysteme : ZDB
41
Normdateien
42
Normdateien: PND
43
Normdateien: PND
44
Verbundsysteme : Dateneingabe
Dateneingabe
45
Normdateien: GKD
GKD: Gemeinsame Körperschaftsdatei
46
Virtuelle Kataloge
47
Prinzip Karlsruher Virtueller Katalog
48
Karlsruher Virtueller Katalog
49
Karlsruher Virtueller Katalog
50
Karlsruher Virtueller Katalog
52
Virtuelle Kataloge
53
Bibliothekskataloge und Suchmaschinen
54
Suchmaschine - Bibliothekskatalog
Bibliothekskatalog
Verzeichnis der in einer Bibliothek vorhandenen Bestände <-> Bezug zu physischen bzw. lizenzierten Beständen
Suchmaschine
allgemein: Software, die eine Recherche in Datenbeständen ermöglicht
speziell: Dienst, der eine Suche im World Wide Web ermöglicht
57
Unterschiede
Bibliothekskatalog Internetsuchmaschine
Bestand begrenzter Datenbestand unbegrenzt
Umfang i.d.R sachliche Auswahl ...alles...
Verfügbarkeit i.d.R nicht direkt i.d.R direkt
Datenquelle Titelblätter von Büchern Textdokumente im Internet
Aufbereitung strukturierte Daten Volltexte
Ergebnislisten formal sortiert (Jahr, Alphabet) Inhaltlich (Relevanz)
Normierung i.d.R für Urheber keine
Aktualität mäßig hoch
Zuverlässigkeit sehr hoch gering (Spam, tote Links)
Recherche and, or, not, (near), Trunkierung and und not
Software i.d.R. relationale Datenbank i.d.R. Volltext-Searchengine
Update schnell langsam
58
Nutzungszahlen
www.webhits.de/deutsch/index.shtml?webstats.html
59
Google: Suchsyntax
Suchsyntax• Groß- und Kleinschreibung spielt keine Rolle
Begriffe ausschließen: durch Minus vor Begriff
• Beispiel: campanellacampanella --lisztliszt --hotel hotel --royroy
Phrasensuche
"wort1 wort2""wort1 wort2" : Phrasensuche, d.h. die Worte müssen exakt in dieser Reihenfolge vorkommen.
• Beispiel: "Michael W. M"Michael W. Möönnich"nnich"
Boolsches ODER durch "OR" "OR" oder " | "" | "
OR muss dabei groß geschrieben werden.• Beispiel: bibliothekbibliothek OR OR bibliothekenbibliotheken OR OR bibliotheksbibliotheks rankingranking
Suche nach Stoppworten und einstelligen Ziffern erzwingen: durch Plus vor Begriff.
• Beispiel: goethegoethe faust faust actact +I+I
60
Google: Suchsyntax
Trunkierung (Platzhalter)• Trunkierung von Buchstaben oder Wortteile ("("environmentenvironment?")?") funktioniert bei Suchmaschinen wie Google nicht!
• Abhilfe ist nur möglich durch Eingabe der verschiedenen Begiffsvariantenmit OR verbunden; alternative Wortformen werden teilweise bei der Suche automatisch mitgesucht.
• Maximal 32 Suchbegriffe
• Bei einer Phrasensuche kann ein einzelnes Wort trunkiert werden
• Beispiel: Gesucht wird eine Webseite mit dem Titel "New Catalog forLibraries", wobei die Schreibung von "Catalog[ue|ing]" unbekannt ist: "New * "New * forfor LibrariesLibraries"" oder "New * * "New * * LibrariesLibraries""
Bereichssuche:
•• bundestagbundestag 1968..19701968..1970 oder
•• bundestagbundestag numrangenumrange 19681968--
61
Google: Einschränkungen
Suche auf Domains eingrenzen: sitesite::• Beispiel: meiermeier site:unisite:uni--karlsruhe.dekarlsruhe.de
Dokumenttypen ausschließen: filetypefiletype:: oder extext::• Beispiel: --filetype:pdffiletype:pdf, , --filetype:psfiletype:ps
möglich ist: PDF, DOC, PS, XLS, PPT, RTF
Suche einschränken auf HTML-Elemente•• link:link: http//:www.test.dehttp//:www.test.de
nur Seiten ausgeben, die auf test.de verlinken•• [[all]inurlall]inurl: : moennichmoennich•• [[all]intitleall]intitle: : karlsruherkarlsruher virtueller virtueller katalogkatalog•• inbodyinbody::•• relatedrelated::
Achtung: Einschränkungen funktionieren nicht immer korrekt!
62
Neuerungen 2009
63
Neuerungen 2009
64
Neuerungen 2009
65
Neuerungen 2009
66
Neuerungen 2009
70
Lokale Bibliothekskataloge (OPACs)
71
XOPAC Karlsruhe
Uni-Katalog• Bestände der UB
•1.000.000 Bände
• vollständig ab 1964 im Katalog
• 72 Bibliotheken in der Universität• Zeitschriften des Forschungszentrums Karlsruhe,
der Badischen Landesbibliothek und der Hochschulbibliothek Karlsruhe
• Buchbestände des Forschungszentrums Karlsruhe (in Arbeit)
• alle lizenzierten elektronischen Zeitschriften und Bücher
72
Projekt XOPAC 6/2004 - 2/2005
eXtendableOnline Public Access Catalog
Open Source OPAC• LINUX / UNIX
• PostgreSQL V 7.4• Volltext-Engine Swish-e V 2.4.2
• Programmiersprache PHP V 4.x
Hybrid-OPAC• Volltext-Engine + RDBMS
XOPAC
73
Parser (PHP)
Formatierung (PHP)
Volltext-Engine
Volltext-Index
RelationaleDatenbank
Suchanfrage
ISBD / MAB
XOPAC Architektur
74
Swish-eKonfiguration
XOPACLoaderPostgreSQL Swish-e
XOPACLoader
MAB/MARC
TitelsätzeLokalsätze
Exemplarsätze+
Stammdaten:Personen
KörperschaftenSchlagworte
XOPAC-Loader
Swish-eIndex
SWB
75
Freitextsuche
76
Freitextsuche
77
Freitextsuche
78
Sucheinschränkung
79
Sucheinschränkung
80
Sucheinschränkung
81
Indexsuche
82
Indexsuche
83
Expertensuche
84
Expertensuche
85
Expertensuche
87
Inhaltliche Erschließung(Sacherschließung)
88
Klassifikatorische Sacherschließung
Definition
Klassifikationen dienen dazu, Themen oder Objekte systematisch zu ordnen
89
Linné
Carl von Linné, Carolus Linnaeus (1707 – 1778)
•Binärnomenklatur für Pflanzen und Tiere
•Gattungs- u. Artnamen
•Mentha piperita (L.)
Species plantarum 1753: Botanik
Systema naturae 1753: Zoologie
90
Universalklassifikationen und Aufstellungssystematiken
91
Fachgruppen UB Karlsruhe
92
Fachgruppen UB Karlsruhe
93
Fachgruppen UB Karlsruhe
94
Allgemeine Systematik für Öffentliche Bibliotheken ASB
95
Allgemeine Systematik für Öffentliche Bibliotheken ASB
Die Notationen beginnen immer mit dem Großbuchstaben der Hauptgruppe
Je nach Differenzierungsgrad folgen weitere Buchstaben
Je nach Differenzierungsgrad folgen eine bis drei Ziffern
Hauptgruppe X (Landwirtschaft, …)
• Gruppe Xe (Hauswirtschaft)
• 1. Untergruppe Xeo (Ernährung)
• 2. Untergruppe Xeo 2 (Kochen, Backen)
•3. Untergruppe Xeo 21 (Regionale Küche: Allgemeines)
• 4. Untergruppe Xeo 211(Deutsche regionaleKüche )
Notationen
96
Allgemeine Systematik für Öffentliche Bibliotheken ASB
A Allgemeines, Wissenschaft, Kultur, Information und Kommunikation
B Biographische LiteraturC Geographie, EthnologieD HeimatkundeE Geschichte, Zeitgeschichte,
einschließlich Kulturgeschichte und Volkskunde
F RechtG SozialwissenschaftenH Wirtschaft
K ReligionL Philosophie
M PsychologieN PädagogikO SpracheP LiteraturR KunstS Musik, Tanz, Theater, Film, Hörfunk und
FernsehenT MathematikU NaturwissenschaftenV MedizinW Technik, Industrie, Handwerk und GewerbeX Landwirtschaft, Forstwirtschaft, Fischwirtschaft,
HauswirtschaftY Sport und FreizeitgestaltungZ Belletristik
97
Regensburger Verbundklassifikation
98
Regensburger Verbundklassifikation
99
Regensburger Verbundklassifikation
100
Anwendung im Katalog der UB Karlsruhe
101
Anwendung im Katalog der UB Karlsruhe
102
Library of Congress Classification
103
Library of Congress Classification
104
Library of Congress Classification
105
Library of Congress Classification
106
Dezimalklassifikation
107
Dezimalklassifikation
108
Dezimalklassifikation
109
Dezimalklassifikation
110
Dezimalklassifikation
111
DDC Deutsch
112
DDC DNB
•Nationalbibliographien- DNB
113
Bewertung von Klassifikationssystemen
•Klassifikationssysteme sind immer abhängig von der Epoche und vom Kontext (DDC stammt von 1873)
-> Klassifikationssysteme veralten•Klassifikationssysteme sind nur begrenzt erweiterbar
•Aufstellungssystematiken sind immer nur eindeutig
•Klassifikationssysteme sind mnemotechnisch problematisch und für Benutzer schwer zugänglich
•Klassifikationssysteme sind gut für Browsing geeignet
•Klassifikationssysteme sind hierarchisch und damit expandierbar
•Klassifikationssysteme sind extrem kompakt
114
Fachklassifikationen
115
Fachklassifikationen: ACM
116
Fachklassifikationen: ACM
The ACM Computing Classification System (1998)
A. General LiteratureB. HardwareC. Computer Systems OrganizationD. SoftwareF. Theory of ComputationG. Mathematics of ComputingH. Information SystemsI. Computing MethodologiesJ. Computer ApplicationsK. Computing Milieux
...D.1 PROGRAMMING TECHNIQUES
•D.1.0 General •D.1.1 Applicative (Functional) Programming•D.1.2 Automatic Programming(I.2.2) •D.1.3 Concurrent Programming•D.1.4 Sequential Programming•D.1.5 Object-oriented Programming•D.1.6 Logic Programming•D.1.7 Visual Programming
•D.1.m Miscellaneous
...
117
ACM
118
Medical Subject Headings MeSH
119
Medical Subject Headings MeSH
Die Abkürzung MeSH steht für Medical Subject Headings
Thesaurus, den die National Library of Medicine (NLM) in USA erstellt und fortlaufend pflegt
120
MeSH
121
MeSH
122
MeSH
123
Thesaurus
Fachklassifikationen ist in der Regel ein Thessaurushinterlegt.
Griech,: thesauros = Schatz
Ein Thesaurus erfasst die Wörter, Terme und Ausdrücke eines Sachgebiets und beschreibt die Beziehungen zwischen ihnen
Thesauri
• ... definieren ein kontrolliertes Vokabular• ... stellen Beziehungen (Relationen) zwischen den Termen dieses Vokabulars her
124
Verbale Sacherschließung
125
Verbale Sacherschließung
Verbale Sacherschließung:
Erschließung von Dokumenten durch die Angabe von Schlagwörtern, die aus dem Inhalt des Dokuments gewonnen werden.
Schlagwort:Ein möglichst kurzer, aber genauer und vollständiger Ausdruck für den sachlichen Inhalt eines Werkes
126
Universitätsbibliothek Karlsruhe
Schlagworte im Katalog: Universitätsbibliothek
127
Badische Landesbibliothek
Schlagworte im Katalog: Badische Landesbibliothek
130
Regeln für den Schlagwortkatalog
131
RSWK
132
RSWK
133
Verbundsysteme
134
Bewertung der verbalen Sacherschließung
•Verbale Sacherschließung ist intuitiv•Verbale Sacherschließung kann relativ leicht angepaßt werden
•Wahl der Begrifflichkeit ist immer problematisch
•verbale Sacherschließung ist für Browsing nicht geeignet
135
Inhaltliche Erschließung bei Suchmaschinen
136
Google Books: books.google.de
137
138
Integration in Ergebnisse von Google
139
Urheberrecht bedingt verschiedene Versionen
140
Erschließung
141
Erschließung
142
Erschließung
143
Erschließung
Verzweigung zu Google Websuche
144
Erschließung
145
Erschließung
146
Erschließung
147
Erschließung
Verzweigung zu Google Scholar
148
OCR
149
Auch Zeitschriften!
OCR-Probleme
150
Anwendungsbeispiele für Sacherschließung
151
Anwendungsbeispiele für Sacherschließung
152
Anwendungen der Sacherschließng: Zeitschriften
153
Anwendungen der Sacherschließung: Sucheinschränkungen
154
Anwendungen der Sacherschließung: Sucheinschränkungen
155
Neue Methoden der Inhaltlichen Erschließung:
Recommendersysteme
156
Recommenderdienste
Was ist ein Recommender?•Ein Recommender bietet Links auf verwandte Produkte ("Empfehlungen")
•Empfehlungen werden durch Beobachtung von Benutzerverhalten erzeugt
•Verbreitet in Online-Shops
157
158
XOPAC
160
Vergleich Recommenderdienst - traditionelle Sacherschließung
Recommender•Maschinell
•Billig
•Basis: Benutzerdaten
•Objektiv•Zuordnung dynamisch
Sacherschließung•Manuell
•Teuer•Basis: Expertenwissen
•Subjektiv
•Verknüpfung Dokument - SE statisch
Vergleich Recommenderdienst - traditionelle Sacherschließung
161
Neue Methoden der Inhaltlichen Erschließung:
Clusterbildung
162
Clustering
www.vivisimo.com
164
Neue Methoden der inhaltlichen Erschließung:
Semantisches Web
165
Semantisches Web
Semantisches Web: Erweiterung des World Wide Web (WWW) um (Meta)-Daten, die genuin maschinenlesbare Informationen über die Inhalte der Web-Objekte bereitstellen
Basis:
RDF - Resource Description Framework
•Modell zur Repräsentation von Metadaten
•Format zur Repräsentation von Klassifikationen und Ontologien (formalen Vokabularen)
•W3 Konsortium 1999
•Probleme:
•beim Semantischen Web müssen die Anbieter/Ersteller von Web-Objekten die Metadaten einbringen
•Standardisierung der Metadaten
•Qualitätskontrolle (Spamming)
166
DC in RDF<rdf:RDF
xmlns:rdf="http://www.w3.org/1999/02/22-rdf-syntax-ns#"xmlns:dc="http://purl.org/metadata/dublin_core#"xmlns:dcq="http://purl.org/metadata/dublin_core_qualifiers#">
<rdf:Description about="http://www.dlib.org/dlib/may98/miller/05miller.html"><dc:Title> An Introduction to the Resource Description Framework </dc:Title><dc:Creator> Eric J. Miller </dc:Creator><dc:Description> The Resource Description Framework (RDF) is an infrastructure that enables the encoding, exchange and reuse of structured metadata. rdf is an application of xml that imposes needed structural constraints to provide unambiguousmethods of expressing semantics. rdf additionally provides a ..... packages of metadata defined by different resourcedescription communities. </dc:Description><dc:Publisher> Corporation for National Research Initiatives </dc:Publisher><dc:Subject><rdf:Bag><rdf:li> machine-readable catalog record formats </rdf:li><rdf:li> applications of computer file organization and access methods</rdf:li>
</rdf:Bag></dc:Subject><dc:Rights> Copyright @ 1998 Eric Miller </dc:Rights><dc:Type> Electronic Document </dc:Type><dc:Format> text/html </dc:Format><dc:Language> en </dc:Language><dc:Relation rdf:parseType="Resource"><dcq:RelationTyperdf:resource="http://purl.org/metadata/dublin_core_qualifiers#IsPartOf"/><rdf:valueresource="http://www.dlib.org/dlib/may98/05contents.html"/> </dc:Relation>
</rdf:Description></rdf:RDF> .
167
Neue Methoden der Inhaltlichen Erschließung:
Web 2.0
171
Inhaltserschließung im Web 2.0
172
Inhaltserschließung im Web 2.0
173
Inhaltserschließung im Web 2.0
174
Ende