Heidrun Wiesenmüller: Anreichern, abgleichen, verknüpfen - Anwendungsideen für das...

Post on 11-May-2015

902 views 1 download

description

Vortrag "Anreichern, abgleichen, verknüpfen" von Heidrun Wiesenmüller auf dem Workshop "Anwendung von Clustering-Verfahren zur Verbesserung und Analyse von Katalogdaten" (gemeinsam mit Magnus Pfeffer) beim Leipziger Bibliothekskongress 2013.

transcript

13.03.2013 5. Kongress Bibliothek & Information Deutschland Folie 1

Heid

run W

iesenm

ülle

r

H

ochschule

der

Medie

n

Anreichern, abgleichen,

verknüpfen

Anwendungsideen

für das Werk-Clustering

(Beitrag im Workshop „Anwendung von

Clustering-Verfahren zur Verbesserung und

Analyse von Katalogdaten“)

13.03.2013 5. Kongress Bibliothek & Information Deutschland Folie 2

Heid

run W

iesenm

ülle

r

H

ochschule

der

Medie

n

1. Individualisierung

2. Differenzierung von Normsätzen

3. Maschinell erstellte Werk-Normsätze

4. Optimierungspotenziale für das Clustering

Agenda

13.03.2013 5. Kongress Bibliothek & Information Deutschland Folie 3

Heid

run W

iesenm

ülle

r

H

ochschule

der

Medie

n

1. Individualisierung

2. Differenzierung von Normsätzen

3. Maschinell erstellte Werk-Normsätze

4. Optimierungspotenziale für das Clustering

Agenda

13.03.2013 5. Kongress Bibliothek & Information Deutschland Folie 4

Heid

run W

iesenm

ülle

r

H

ochschule

der

Medie

nIndividualisierung von Personen

• in angloamerikanischer Welt schon immer üblich

Lebensdaten sind sogar Teil der Ansetzungsform

• von RAK ursprünglich nicht vorgesehen

in deutschsprachigem Raum erst seit einigen Jahren

praktiziert

• erheblicher Aufwand für die Erschließung

Differenzieren von Autoren, Erfassen zusätzlicher

Informationen, Bearbeiten von Altdaten (z.B. Auflösen

von „Sammeltöpfen“)

13.03.2013 5. Kongress Bibliothek & Information Deutschland Folie 5

Beispiel für Individualisierung

dreimal „Heiner Müller“

13.03.2013 5. Kongress Bibliothek & Information Deutschland Folie 6

Heid

run W

iesenm

ülle

r

H

ochschule

der

Medie

nProbleme bei Individualisierung

• Altdaten

bisher nur zum Teil aufgearbeitet

• Informationen nicht ausreichend bzw. gesichert

Individualisierung z.T. anhand der vorliegenden Angaben

nicht möglich, Zuordnen zu vorhandenen Datensätzen oft

schwierig, keine Zeit für zusätzliche Recherchen

• Verzicht auf Individualisierung

aus unterschiedlichen Gründen (z.B. keine Zeit,

mangelnde Erfahrung mit GND bei kleinen Bibliotheken)

• ohne manuelle Bearbeitung eingespielte Fremddaten

z.B. E-Book-Pakete, Daten für Nationallizenzen

(oft ganz ohne Verknüpfung zu Personensätzen)

bisher noch sehr unvollkommen umgesetzt

13.03.2013 5. Kongress Bibliothek & Information Deutschland Folie 7

Heid

run W

iesenm

ülle

r

H

ochschule

der

Medie

nChance für Werk-Clustering

• Verfasser auf Werk-Ebene angesiedelt

auch bei Herausgebern von Aufsatzbänden u.ä. möglich

• ein einziger Datensatz aus dem Cluster genügt

wenn in irgendeinem Verbund eine Ausgabe mit einem

individualisierten Satz verknüpft ist, kann dies für alle

anderen Mitglieder im Cluster übernommen werden

• kann auch zum Auffinden von Fehlern dienen

z.B. könnte nach Fällen gesucht werden, in denen zwei

Mitglieder desselben Clusters mit unterschiedlichen

individualisierten Personensätzen verknüpft sind

• Einbezug angloamerikanischer Daten

könnte die Ergebnisse weiter verbessern

13.03.2013 5. Kongress Bibliothek & Information Deutschland Folie 8

SWB

GBV

• SWB: nicht individualisiert

• GBV: individualisiert

(ebenso DNB und HBZ)

GND-Satz

13.03.2013 5. Kongress Bibliothek & Information Deutschland Folie 9

GBV

• SWB: individualisiert

• GBV: nicht indiv. (so

auch HBZ und OBV)

SWB

13.03.2013 5. Kongress Bibliothek & Information Deutschland Folie 10

SWB

• SWB: nur Online-Ausgabe, dort nicht individualisiert

(so auch im GBV und OBV)

• Daten von E-Book-Paketen

werden häufig eingekauft und ohne intellektuelle Nach-

bearbeitung eingespielt

13.03.2013 5. Kongress Bibliothek & Information Deutschland Folie 11

• HBZ: nur Druck-Ausgabe,

dort Tp-Satz

HBZ

• HBZ:

nur Druck-Ausg.,

dort individualisiert

13.03.2013 5. Kongress Bibliothek & Information Deutschland Folie 12

GBV

im selben Verbund:

E-Book-Ausgabe ohne

Individualisierung,

Druckausgabe mit!

13.03.2013 5. Kongress Bibliothek & Information Deutschland Folie 13

GBV

Variante:

E-Book-Ausgabe steht

nicht unter Ansetzungs-

form, sondern unter

einer Verweisungsform

(im Tp-Satz enthalten)

13.03.2013 5. Kongress Bibliothek & Information Deutschland Folie 14

Heid

run W

iesenm

ülle

r

H

ochschule

der

Medie

n

SWB:

Titel dieser Person sind

auf nicht weniger als

drei Normsätze verteilt

13.03.2013 5. Kongress Bibliothek & Information Deutschland Folie 15

Heid

run W

iesenm

ülle

r

H

ochschule

der

Medie

n

• bisher manuelle Bearbeitung

sehr aufwendig, im laufenden Betrieb kaum zu leisten

• Clustering könnte helfen

könnte künftig ein weitgehend automatisches

„Auseinandernehmen“ solcher Sammeltöpfe ermöglichen

SWB:

Beispiel für einen „Sammeltopf“ (Tn-

Satz für einen gängigen Namen), mit

dem über 600 Titel verknüpft sind

13.03.2013 5. Kongress Bibliothek & Information Deutschland Folie 16

bei DNB individualisiert:

Kunsthistoriker, geb. 1936

bei DNB individualisiert:

Theologe, geb. 1950

bei DNB individualisiert:

Historiker, geb. 1956

Ausschnitt aus Trefferliste

zum „Sammeltopf“

13.03.2013 5. Kongress Bibliothek & Information Deutschland Folie 17

HBZ

SWB

dasselbe Werk:

einmal verknüpft mit Kunsthistoriker, geb. 1947, einmal

verknüpft mit Kunsthistoriker, geb. 1936 (so auch DNB).

Hier kann etwas nicht stimmen!

13.03.2013 5. Kongress Bibliothek & Information Deutschland Folie 18

Heid

run W

iesenm

ülle

r

H

ochschule

der

Medie

n

Recherche ergibt:

beide Zuordnungen sind falsch, der Richtige ist

ein Dritter (für den es ebenfalls Datensatz gibt)

Wikipedia

13.03.2013 5. Kongress Bibliothek & Information Deutschland Folie 19

SWB

Zwei Ausgaben von Middlemarch:

E-Book-Ausgabe aus Nationallizenz-Daten,

dort ist nur der Name als Text eingetragen

13.03.2013 5. Kongress Bibliothek & Information Deutschland Folie 20

SWB

LoC

Alleinbesitz im SWB:

individualisierende Informationen könnten aus

angloamerikanischen Daten übernommen werden

13.03.2013 5. Kongress Bibliothek & Information Deutschland Folie 21

Heid

run W

iesenm

ülle

r

H

ochschule

der

Medie

nKataloge

Individualisierungsinfos bisher kaum genutzt:

• in manchen Katalogen zumindest Anzeige beim Titel

z.B. über Klick auf spezielles Icon

• in Trefferlisten i.d.R. bisher nicht genutzt

Titel aller gleichnamigen Autoren zusammengeworfen

(Ausnahme: Freiburger Katalog plus)

• Suche vom Titel aus: unterschiedlich realisiert

entweder nur Anzeige der mit dieser Person verknüpften

Titel (Problem: ergibt evtl. nur Teil der relevanten Titel)

oder Recherche nach Titeln aller gleichnamigen Personen

bei besserer Qualität der Daten wären auch

verbesserte Katalog-Funktionen möglich

13.03.2013 5. Kongress Bibliothek & Information Deutschland Folie 22

Beispiel für Individualisierung

dreimal „Heiner Müller“

13.03.2013 5. Kongress Bibliothek & Information Deutschland Folie 23

Heid

run W

iesenm

ülle

r

H

ochschule

der

Medie

nSuche nach Heiner Müller: Personen werden

in der Trefferliste „zusammengeworfen“

SWB

der Schriftsteller

der Verfasser von

Unterrichtsmaterialien

13.03.2013 5. Kongress Bibliothek & Information Deutschland Folie 24

reales Beispiel:

http://www.viaf.org

Müller, Heiner1925-1995 / Schriftsteller

Müller, Heiner1970- / Arzt

Müller, Heiner1982- / Publizist von Unterrichts-materialien für die Schule

Müller, Heinerweitere Personen dieses Namens

Müller, Heinrich1873-1956 / Lehrer

Müller, Heinrich1845-1910 / Apotheker

fiktiv (Designstudie),

Basis: HEIDI-Katalog

der UB Heidelberg

Lösungsweg 1:

Vorschläge bei

der Eingabe

13.03.2013 5. Kongress Bibliothek & Information Deutschland Folie 25

fiktiv (Designstudie), Basis: SWB

Treffer einschränken auf:

Müller, Heiner1925-1995 / Schriftsteller

Müller, Heiner1970- / Arzt

Müller, Heiner1982- / Publizist von Unterrichtsmaterialienfür die Schule

Müller, Heinerweitere Personendieses Namens

Lösungsweg 2: Drill-down

13.03.2013 5. Kongress Bibliothek & Information Deutschland Folie 26

umgesetzt im Katalog

plus der UB Freiburg

13.03.2013 5. Kongress Bibliothek & Information Deutschland Folie 27

Heid

run W

iesenm

ülle

r

H

ochschule

der

Medie

n

1. Individualisierung

2. Differenzierung von Normsätzen

3. Maschinell erstellte Werk-Normsätze

4. Optimierungspotenziale für das Clustering

Agenda

13.03.2013 5. Kongress Bibliothek & Information Deutschland Folie 28

Heid

run W

iesenm

ülle

r

H

ochschule

der

Medie

nAngloamerikanische Tradition

Stärkere Differenzierung bei Normdaten, z.B.:

• Pseudonyme

schreibt jemand teils unter einem Pseudonym, teils unter

seinem wirklichen Namen (oder unter mehreren Pseudo-

nymen), so werden unterschiedliche „bibliographische

Identitäten“ angenommen

• Person in offizieller Funktion

Unterscheidung zwischen einer Person als Amtsträger

und derselben Person als „Privatmann/-frau“

Aufspaltung in mehrere Normdatensätze

mit Siehe-auch-Verweisung (5XX)

dagegen bei uns jeweils nur ein Normsatz

13.03.2013 5. Kongress Bibliothek & Information Deutschland Folie 29

Heid

run W

iesenm

ülle

r

H

ochschule

der

Medie

n

Normdatensatz 1 (Personensatz, stark gekürzt):

100 1# |a Hobb, Robin

500 1# |a Lindholm, Megan

• Autorin veröffentlicht teils unter dem Pseudonym „Robin

Hobb“, teils unter „Megan Lindholm“

13.03.2013 5. Kongress Bibliothek & Information Deutschland Folie 30

Heid

run W

iesenm

ülle

r

H

ochschule

der

Medie

n

Normdatensatz 2 (Personensatz, stark gekürzt):

100 1# |a Lindholm, Megan

500 1# |a Hobb, Robin

13.03.2013 5. Kongress Bibliothek & Information Deutschland Folie 31

Heid

run W

iesenm

ülle

r

H

ochschule

der

Medie

n

Beispiel für Titel

am Normsatz 1

Beispiel für Titel

am Normsatz 2

13.03.2013 5. Kongress Bibliothek & Information Deutschland Folie 32

Heid

run W

iesenm

ülle

r

H

ochschule

der

Medie

n GND

GND: nur ein Datensatz, der für alle Titel verwendet

wird; Pseudonym ist eine normale Verweisung (400)

13.03.2013 5. Kongress Bibliothek & Information Deutschland Folie 33

Heid

run W

iesenm

ülle

r

H

ochschule

der

Medie

n

Normdatensatz 1 (Personensatz, stark gekürzt):

100 0# |a Benedict |b XVI, |c Pope, |d 1927-

400 1# |a Ratzinger, Joseph, |d 1927-

510 2# |a Catholic Church |b Pope (2005-2013 :

Benedict XVI)

13.03.2013 5. Kongress Bibliothek & Information Deutschland Folie 34

Heid

run W

iesenm

ülle

r

H

ochschule

der

Medie

nBeispiel für einen Titel

am Normsatz 1

13.03.2013 5. Kongress Bibliothek & Information Deutschland Folie 35

Heid

run W

iesenm

ülle

r

H

ochschule

der

Medie

n

Normdatensatz 2 (Körperschaftssatz, stark gekürzt):

110 2# |a Catholic Church. |b Pope (2005-2013 :

Benedict XVI)

500 0# |a Benedict |b XVI, |c Pope, |d 1927-

13.03.2013 5. Kongress Bibliothek & Information Deutschland Folie 36

Heid

run W

iesenm

ülle

r

H

ochschule

der

Medie

nBeispiel für einen Titel

am Normsatz 2

13.03.2013 5. Kongress Bibliothek & Information Deutschland Folie 37

Heid

run W

iesenm

ülle

r

H

ochschule

der

Medie

nRDA-Umstieg

• Wenn entschieden wird, RDA voll zu implementieren

Aufspaltung der betroffenen Normsätze sowie neue

Zuordnung nötig

• Clustering könnte Zuordnungsprozess unterstützen

alle Ausgaben eines Werkes sollten am selben Normsatz

hängen

• Einbezug angloamerikanischer Daten ins Clustering

könnte bei korrekter Zuordnung helfen

13.03.2013 5. Kongress Bibliothek & Information Deutschland Folie 38

Heid

run W

iesenm

ülle

r

H

ochschule

der

Medie

n

1. Individualisierung

2. Differenzierung von Normsätzen

3. Maschinell erstellte Werk-Normsätze

4. Optimierungspotenziale für das Clustering

Agenda

13.03.2013 5. Kongress Bibliothek & Information Deutschland Folie 39

Heid

run W

iesenm

ülle

r

H

ochschule

der

Medie

nClustering von Ausgaben

• bisher nur als Funktion von Recherchesystemen

nicht „fest verdrahtet“, sondern durch Algorithmen erzeugt

Primo Mannheim

funktioniert jeweils nur in bestimmten System

13.03.2013 5. Kongress Bibliothek & Information Deutschland Folie 40

Heid

run W

iesenm

ülle

r

H

ochschule

der

Medie

nDatentechnische Verknüpfung

bisher nur in wenigen Fällen praktiziert:

• Verknüpfung von Ausgaben nur in besonderen Fällen

z.B. parallele Druck- und Online-Ausgabe

13.03.2013 5. Kongress Bibliothek & Information Deutschland Folie 41

Heid

run W

iesenm

ülle

r

H

ochschule

der

Medie

nWerknormsätze

• in Formalerschließung bisher nur für Musik-Werke

werden manuell erstellt und verknüpft

nicht nur Text, sondern

echte Verknüpfung

13.03.2013 5. Kongress Bibliothek & Information Deutschland Folie 42

Heid

run W

iesenm

ülle

r

H

ochschule

der

Medie

nzugehöriger Normsatz

für das Werk in der GND

13.03.2013 5. Kongress Bibliothek & Information Deutschland Folie 43

Heid

run W

iesenm

ülle

r

H

ochschule

der

Medie

nRDA

• basiert auf FRBR

Abbildung der Primärbeziehungen zwischen einem Werk,

seinen Expressionen, Manifestationen und Exemplaren ist

grundsätzlich angestrebt

• wichtig ist insbesondere die Beziehung zum Werk

das „manifestierte Werk“ ist ein Kern-Element

(d.h. muss stets erfasst werden)

• RDA erlaubt zwar ein Weitermachen wie bisher

in der sog. „composite description“ kann die Beschreibung

der Manifestation mit Informationen der Werk- und

Expressionsebene kombiniert werden

• aber: wünschenswert wären Werk-Verknüpfungen

jedoch: manuelle Erstellung und Verknüpfung wäre zu

aufwendig, nötig ist maschinelle Lösung

13.03.2013 5. Kongress Bibliothek & Information Deutschland Folie 44

Heid

run W

iesenm

ülle

r

H

ochschule

der

Medie

nAutomatische Werkverknüpfung

Grundidee für den Ablauf:

1. Erstellen von Werkclustern

gemäß Pfeffer-Algorithmus (evtl. noch optimiert)

2. Extrahieren werkrelevanter Informationen

jeweils aus dem Gesamtcluster

3. maschinelles Erzeugen eines Werknormsatzes

gemäß festgelegter Ableitungsregeln (z.B. könnte das

Jahr der frühesten Manifestation im Cluster als Jahr des

Werkes behandelt werden)

4. maschinelles Eintragen der Identnummer des Werks

bei allen Titelsätzen, die zum Cluster gehören

13.03.2013 5. Kongress Bibliothek & Information Deutschland Folie 45

Heid

run W

iesenm

ülle

r

H

ochschule

der

Medie

n1100 1972

1500 ger

2000 3-7940-2607-1

3000 !PPN!Hacker, Rupert*1935-*

4000 Bibliothekarisches Grundwissen$hRupert Hacker

4030 München-Pullach [u.a.]$nVerl. Dokumentation

4060 368 S.

1100 2008

1500 ger

2000 978-3-598-11771-8

3000 !PPN!Gantert, Klaus*1968-*

3001 !PPN!Hacker, Rupert*1935-*

4000 Bibliothekarisches Grundwissen$hKlaus Gantert;

Rupert Hacker

4020 8., vollst. neu bearb. und erw. Aufl.

4030 München$nSaur

4060 414 S.

Beispiel 1:

zwei Mitglieder desselben

Clusters (SWB, gekürzt)

13.03.2013 5. Kongress Bibliothek & Information Deutschland Folie 46

Heid

run W

iesenm

ülle

r

H

ochschule

der

Medie

n

005 Tu7

006 http://d-nb.info/gnd/xyz

008 wit

011 f

012 q

035 gnd/xyz

130 Bibliothekarisches Grundwissen

377 ger

500 !PPN!Hacker, Rupert*1935-* $4aut1

500 !PPN!Gantert, Klaus*1968-* $4auta

548 $c1972$4datj

neuer Code „7“: maschinell

erstellt aus Clustering

neues Nutzungskennzeichen „q“:

für maschinelle Verknüpfungen

aus dem Cluster erzeugter Werknormsatz

13.03.2013 5. Kongress Bibliothek & Information Deutschland Folie 47

Heid

run W

iesenm

ülle

r

H

ochschule

der

Medie

n

005 Tu7

006 http://d-nb.info/gnd/xyz

008 wit

011 f

012 q

035 gnd/xyz

130 Bibliothekarisches Grundwissen

377 ger

500 !PPN!Hacker, Rupert*1935-* $4aut1

500 !PPN!Gantert, Klaus*1968-* $4auta

548 $c1972$4datj

aus dem Cluster erzeugter Werknormsatz

Werktitel: Sachtitel der

frühesten Manifestation

mutmaßliche Sprache des Werks

(nur deutsche Manifestationen)

Jahr der frühesten Manifestation

als mutmaßliches Jahr des Werks

13.03.2013 5. Kongress Bibliothek & Information Deutschland Folie 48

Heid

run W

iesenm

ülle

r

H

ochschule

der

Medie

n

005 Tu7

006 http://d-nb.info/gnd/xyz

008 wit

011 f

012 q

035 gnd/xyz

130 Bibliothekarisches Grundwissen

377 ger

500 !PPN!Hacker, Rupert*1935-* $4aut1

500 !PPN!Gantert, Klaus*1968-* $4auta

548 $c1972$4datj

aus dem Cluster erzeugter Werknormsatz

erster Verfasser der

frühesten Manifestation

weiterer Verfasser (aus

späterer Manifestation)

13.03.2013 5. Kongress Bibliothek & Information Deutschland Folie 49

Heid

run W

iesenm

ülle

r

H

ochschule

der

Medie

n

1100 2008

1500 ger

2000 978-3-598-11771-8

3000 !PPN!Gantert, Klaus*1968-*

3001 !PPN!Hacker, Rupert*1935-*

3012 !PPN!Bibliothekarisches Grundwissen / Hacker,

Rupert*1935-*

4000 Bibliothekarisches Grundwissen$hKlaus Gantert;

Rupert Hacker

4020 8., vollst. neu bearb. und erw. Aufl.

4030 München$nSaur

4060 414 S.

alle Mitglieder des Clusters werden

mit Werknormsatz verknüpft

Verknüpfung zum Werk-

normsatz über Identnummer

13.03.2013 5. Kongress Bibliothek & Information Deutschland Folie 50

Heid

run W

iesenm

ülle

r

H

ochschule

der

Medie

n1100 2012

1500 eng

2000 978-1-4087-0420-2

3000 !PPN!Rowling, Joanne K.*1965-*

4000 The @casual vacancy$hJ. K. Rowling

4030 London$nLittle, Brown

4060 503 S.

1100 2012

1500 ger$ceng

2000 978-3-551-58888-3

3000 !PPN!Rowling, Joanne K.*1965-*

3010 !PPN!Aeckerle, Susanne*1942-*[Übers.]

3211 The @casual vacancy <dt.>

4000 Ein @plötzlicher Todesfall$dRoman$hJ. K.

Rowling. Aus dem Engl. von Susanne Aeckerle ...

4030 Hamburg$nCarlsen

4060 574 S.

Beispiel 2:

zwei Mitglieder desselben

Clusters (SWB, gekürzt)

13.03.2013 5. Kongress Bibliothek & Information Deutschland Folie 51

Heid

run W

iesenm

ülle

r

H

ochschule

der

Medie

n

005 Tu7

006 http://d-nb.info/gnd/xyz

008 wit

011 f

012 q

035 gnd/xyz

130 The @casual vacancy

377 eng

430 Ein @plötzlicher Todesfall$vger

500 !PPN!Rowling, Joanne K.*1965-* $4aut1

548 $c2012$4datj

aus dem Cluster erzeugter Werknormsatz

Werktitel: Einheitssachtitel

Sachtitel einer Manifestation, der

nicht mit Werktitel übereinstimmt

(mit Sprachcode)

13.03.2013 5. Kongress Bibliothek & Information Deutschland Folie 52

Heid

run W

iesenm

ülle

r

H

ochschule

der

Medie

n

1100 2012

1500 ger$ceng

2000 978-3-551-58888-3

3000 !PPN!Rowling, Joanne K.*1965-*

3010 !PPN!Aeckerle, Susanne*1942-*[Übers.]

3211 The @casual vacancy <dt.>

3212 !PPN!The @casual vacancy / Rowling,

Joanne K.*1965-*

4000 Ein @plötzlicher Todesfall$dRoman$hJ. K.

Rowling. Aus dem Engl. von Susanne Aeckerle ...

4030 Hamburg$nCarlsen

4060 574 S.

alle Mitglieder des Clusters werden

mit Werknormsatz verknüpft

Verknüpfung zum Werk-

normsatz über Identnummer

13.03.2013 5. Kongress Bibliothek & Information Deutschland Folie 53

Heid

run W

iesenm

ülle

r

H

ochschule

der

Medie

noffene Fragen

• intellektuell erstellter Werknormsatz vorhanden

(z.B. aus Sacherschließung), Feststellen durch Abgleich

der maschinell erstellten Werknormätze mit GND;

Merging oder Verknüpfung der beiden Normsätze?

• Werke mit nur einer Manifestation (Einer-Cluster)

sollte auch in diesen Fällen ein Werknormsatz angelegt

werden?

• technische Umsetzbarkeit

lässt sich das geschilderte Szenario unter den derzeitigen

technischen Rahmenbedingungen (mehreren Verbund-

kataloge) umsetzen?

13.03.2013 5. Kongress Bibliothek & Information Deutschland Folie 54

Heid

run W

iesenm

ülle

r

H

ochschule

der

Medie

n

1. Individualisierung

2. Differenzierung von Normsätzen

3. Maschinell erstellte Werk-Normsätze

4. Optimierungspotenziale für das Clustering

Agenda

13.03.2013 5. Kongress Bibliothek & Information Deutschland Folie 55

Heid

run W

iesenm

ülle

r

H

ochschule

der

Medie

nOptimierungsmöglichkeiten

• bisher sehr scharfes Clustern

z.B. exakte Übereinstimmung von Sachtitel und Zusätzen

notwendig

vermeidet Fehl-Zusammenführungen

umgekehrt: nicht alles wird zusammengeführt

Verbesserungsansätze:

• Einbezug von Verweisungsformen

z.B. Person einmal „Hills, John“, einmal „Hills, John R.“

• Auswertung von Fußnoten

insbes. bei Titeländerungen

• keine 100%-ige Übereinstimmung bei Zusätzen

diese ändern sich vergleichsweise oft

13.03.2013 5. Kongress Bibliothek & Information Deutschland Folie 56

Heid

run W

iesenm

ülle

r

H

ochschule

der

Medie

nFußnote bei Titeländerung

als Text oder mit Verknüpfung

13.03.2013 5. Kongress Bibliothek & Information Deutschland Folie 57

Heid

run W

iesenm

ülle

r

H

ochschule

der

Medie

nUnterschiede bei Zusätzen

Zusatz fehlt in manchen Ausgaben

SWB

13.03.2013 5. Kongress Bibliothek & Information Deutschland Folie 58

Unterschiede bei Zusätzen

vier deutsche Ausgaben, drei Varianten

SWB

13.03.2013 5. Kongress Bibliothek & Information Deutschland Folie 59

Unterschiede bei Zusätzen

drei Ausgaben, drei Varianten

(z.T. auch erfassungsbedingt)

SWB

Verfeinerung des Algorithmus sinnvoll

evtl. mit intellektueller Überprüfung, wenn

das System sich nicht sicher ist

13.03.2013 5. Kongress Bibliothek & Information Deutschland Folie 60

Heid

run W

iesenm

ülle

r

H

ochschule

der

Medie

n

Vielen Dank für

Ihre Aufmerksamkeit!

Kontakt: wiesenmueller@hdm-stuttgart.de