+ All Categories
Home > Documents > Zeitgeschichte online Recherchieren von 1955 bis 2005 mit modernsten Retrievalkomponenten Rüdiger...

Zeitgeschichte online Recherchieren von 1955 bis 2005 mit modernsten Retrievalkomponenten Rüdiger...

Date post: 06-Apr-2016
Category:
Upload: adeltrudis-schlueter
View: 218 times
Download: 3 times
Share this document with a friend
30
Zeitgeschichte online Recherchieren von 1955 bis 2005 mit modernsten Retrievalkomponenten Rüdiger Baumberger, Content Manager APA-DeFacto ODOK’05, Bozen
Transcript

Zeitgeschichte onlineRecherchieren von 1955 bis 2005 mit modernsten Retrievalkomponenten

Rüdiger Baumberger, Content Manager APA-DeFacto

ODOK’05, Bozen

Die APA-Gruppe

APA-DeFacto einer der mächtigsten Medienhosts im deutschsprachigen Raum ist spezialisiert auf:

• Individuelle Informationslösungen• Qualitative Analyse der Medieninhalte• Beschlagwortung und Verknüpfen

relevanter Inhalte• Aufbau und Integration von Wissensportalen

APA-DeFacto - Datenbankpool

• Multimediale Datenbanken – 175 Agentur-Datenbanken– 175 nationale und internationale

Zeitungen/Zeitschriften teilweise im Original-Design (PDF)

– Firmeninformationen– Bilder, Grafiken, Audios– Termine

• > 52 Mio. Dokumente

• Täglich 60.000 neue Dokumente in Real Time

1849 Oesterreichische CorrespondenzJoseph Tuwora

1859 Telegraphen-Korrespondenz-Bureauab 1867 „k.k.“

1922 Amtliche Nachrichtenstelle ANAunter staatlicher Leitung

1938 „Zweigstelle Wien“des Deutschen Nachrichten-Büros

1946 APA - Austria Presse Agentur1988 Erste APA-Datenbank

Die Geschichte der APA

Das APA-Archiv

Das APA-Archiv

Deckblatt des Tagesdossiers vom 1. Jänner 1955

Das Dossier „Jochen Rindt“

APA 02.07.1960

• 1200 Archivordner

• 1,3 Millionen Seiten

• 3 Millionen Meldungen

• 6 Monate OCR-Durchlauf

• 250 GB Daten

Eckdaten

• Spiritusabzüge

• Endlosdruck

• Keine Titel und Stichworte

• Originalnummerierungen nicht verwertbar

• Fehlbestände

Herausforderungen

• Rettung des Archivs(?)

• Lückenlose Digitalisierung des gesamten Bestandes

• Einbindung in bestehende Retrievalsysteme

• Recherche im Volltext

• Faksimile

• Dossiers

Ziele

• weltweit einziges digitales Agenturarchiv – Volltext!

• einmaliges historisches Material

• Volltextdatenbank inkl. Faksimiles der Originale

• 52 Dossiers

• AOM undwww.defacto.at

Ergebnis

APA-OnlineManager (AOM) Recherchetool für Datenbankabfragen• Über 7500 User • 1500 User gleichzeitig• 21 Millionen Recherchen/Suchen pro Jahr• 36 Millionen Objekt/Artikel-Abrufe pro Jahr

• 24 Stunden / 7 Tage Hotline• Hohe Ausfallsicherheit durch Unix-Cluster und

EMC-Plattensysteme

Bestand versus Nutzung• Dokumentbestand

reicht zurück bis 1955

• Die meisten der Abfragen beziehen sich auf Dokumente der letzten Wochen

Anteil historischer Dokumente nach zeitlicher Tiefe

0%

5%

10%

15%

20%

25%

30%

35%

40%

45%

50%

55%

60%

65%

70%

75%

80%

85%

90%

95%

100%

Akt

uelle

r T

ag p

lus

Arc

hiv

1 T

ag u

nd ä

lter

> 1

Mon

at

> 2

Mon

ate

> 3

Mon

ate

> 4

Mon

ate

> 5

Mon

ate

> 6

Mon

ate

> 7

Mon

ate

> 8

Mon

ate

> 9

Mon

ate

> 10

Mon

ate

> 11

Mon

ate

> 1

Jahr

> 1

Jahr

> 1

Jahr

> 1

Jahr

> 1

Jahr

> 1

Jahr

> 1,

5 Ja

hre

> 1,

5 Ja

hre

> 1,

5 Ja

hre

> 1,

5 Ja

hre

> 1,

5 Ja

hre

> 1,

5 Ja

hre

> 2

Jahr

e

> 2

Jahr

e

> 2

Jahr

e

> 2

Jahr

e

> 2

Jahr

e

> 2

Jahr

e

> 2,

5 Ja

hre

> 2,

5 Ja

hre

> 2,

5 Ja

hre

> 2,

5 Ja

hre

Zielsetzung des Projektes mit Know-Center Graz• Durch Erweiterung der Suchmöglichkeiten

um intelligenten Retrievalkomponenten soll der User

– ohne komplexe Suchanfragen schnellstmöglich relevante Treffer erzielen

– einen raschen Überblick über die Suchergebnisse bekommen (großer Archivbestand)

– weiterführende Informationen zu Suchthema erhalten

Themen Clustering• Aussagekräftige Clusterbeschreibungen

(Uniwords und Phrasen)– Extraktion aus Volltext– Keine a priori Themenvorgabe

• Effiziente Implementierung – Clustering von 2000 Artikel dauert etwa 3 Sekunden

Themen-Visualisierung• Visualisierung der Treffermenge

– basierend auf Clustern– Zeitliche Visualisierung von Themenverläufen– Ein-, zwei- und dreidimensionale Darstellung (Landscape

Visualisierung)

• Navigation in der Treffermenge über die Visualisierungsmetaphern

Ähnlichkeitssuche

• Suche von „ähnlichen“ Meldungen – Basis ist das Vector Space Model– Extraktion von Schlüsselwörter der aktuellen Meldung

• Verweis auf weiterführende Dokumente über (semiautomatisch) extrahierte Personen/Firmen

Beispiel: Bibliothekar

Trefferliste mit Visualisierung der

Themencluster

Anzeige Trefferstatistik

Natürlichsprachliche Formulierung der

Suchanfrage

Auswahl eines Themas per Mouseclick

Link zu weiterführender Information

Auswahl eines Dokumentes und Durchführen einer

Ähnlichkeitssuche

Neue Trefferliste, neue Cluste

Herzlichen Dank!

Rüdiger [email protected]

www.apa-defacto.atwww.defacto.at


Recommended