Die Übersetzung von “Diskursdialekten” für die Suche: Das Mapping zwischen Fachsprachen und...

Post on 06-Apr-2016

214 views 1 download

transcript

Die Übersetzung von “Diskursdialekten” für die Suche:

Das Mapping zwischen Fachsprachen und Indexierungssprachen

Vivien Petras

Vortrag im Berliner Bibliothekswissenschaftlichen

Kolloquium

21. November 2006

Das Sprachproblem im Retrieval

Wie kann jemand, der nach Violinen sucht, darauf aufmerksam gemacht werden, daß auch Geigen angeboten

werden?

• Das Sprachproblem im Information Retrieval

• Dialekte und Kontext

• Der Search Term Recommender

• 3 Forschungsfragen

• Experimentelles Web Interface

Gliederung

SucherAutor

IdeenraumIdeenraum

Frage Text

Such-anfrage

Treffer!

• Abgleich zwischen Autor und IR System Indexierung

• Abgleich zwischen Sucher und IR System Anfrageformulierung

Dokument

Information Retrieval = Eine Übung im Sprachabgleich

Information Retrieval = Eine Übung im Sprachabgleich

Sucher

Such-anfrage Dokument

Treffer!

Information Retrieval

Eine “gute” Suchanfrage beschreibt sowohl:• die Frage des Suchers (Informationsbedarf) als auch• die relevanten Dokumente in Bezug auf die Anfrage

?

Semiotik: Unendliche Semiose

Informationswissenschaft: Indexierungskonsistenz

Die Suchwortauswahl ist für den Erfolg eines Retrievalvorgangs ausschlaggebend.

Das Sprachproblem

Wie kann man die Mehrdeutigkeit der Sprache (Ambiguität) für die Suchwortauswahl verringern?

Sprachphilosophie (Wittgenstein)

Sprache wird eindeutiger in: • speziellen Kontexten und • Dialekten

Dialekte und Kontext

Dialekte und Kontext

Lösungsansatz für die Suchwortauswahl:

• ausgehend vom Dialekt und Kontext einer spezialisierten Gemeinschaft ( Fachsprache)

• unter Berücksichtigung der Indexierungssprache (für den Sprachabgleich im Retrieval)

Search Term Recommender = Hilfe zur Suchwortauswahl

Such-anfrage

Fach / Spezialisierung

Meinten Sie…

Fachbegriff / DeskriptorFachbegriff / DeskriptorFachbegriff / DeskriptorFachbegriff / Deskriptor

Dokumente

Fach / Spezialisierung

Fach / Spezialisierung

Fach / Spezialisierung

Fach / Spezialisierung Fach /

Spezialisierung

Search Term Recommender

• Unterstützung bei der Suchwortauswahl (Anfrageerweiterung & Reformulation)

• Automatische Klassifikation

• Terminologie Mapping (Crosskonkordanzen)

Search Term Recommender: Anwendungsgebiete

1. Wie können Fachbereiche und Fachsprachen in einer Informationskollektion identifiziert werden?

2. Sind Fachsprachen wirklich unterschiedlich?

3. Ist ein Fachsprachenfokus wirklich besser?

2 bibliographische Datenbanken im Test:• Inspec• Medline (Ohsumed Kollektion)

Search Term Recommender - Forschungsfragen

• Physik, Elektronik & Elektrotechnik, Computer- und Automatisierungstechnik

• Dokument: Autor, Titel, Quelle, Publikationsjahr, Abstract, Inspec Thesaurus Deskriptoren, Inspec Klassifikationsnummern

• Testkollektion:

Inspec

Dokumente 427.340Deskriptoren / Dokument 6,99Begriffe 60.601Inspec Deskriptoren 8.447

• Medizin und Gesundheitswesen

• Dokument: Autor, Titel, Quelle, Publikationsjahr, Publikationstyp, Abstract, MESH Schlagwörter

• Testkollektion:

Medline Ohsumed

Dokumente 168.463 MESH Schlagwörter / Dokument 3,11 Begriffe 39.762MESH Schlagwörter 12.140

1. Wie können Fachbereiche und Fachsprachen in einer Informationskollektion identifiziert werden?

2. Sind Fachsprachen wirklich unterschiedlich?

3. Ist ein Fachsprachenfokus wirklich besser?

2 bibliographische Datenbanken im Test:• Inspec• Medline (Ohsumed Kollektion)

Search Term Recommender - Forschungsfragen

• Domainterminologie (Fachsprache)

• Publikationsquelle

• Bibliometrische Analyse

• Analyse sozialer Netzwerke

• Fachklassifikation

Bestimmung von Dokumenten aus einem Fachbereich

Inspec Testkollektion• oberste Kategorien in der Inspec Klassifikation• 3 Spezialisierungen: Physics, Electrical & Electronic

Engineering, Computers & Control

Ohsumed Testkollektion• Zeitschriften nach Fachgebiet geordnet (Medline

Journal Descriptors)• 33 Spezialisierungen:• z.B. Anesthesiology, Dentistry, Endocrinology,

Hematology, Nutrition, Radiology

Identifizierung eines Fachbereiches

1. Wie können Fachbereiche und Fachsprachen in einer Informationskollektion identifiziert werden?

2. Sind Fachsprachen wirklich unterschiedlich?

3. Ist ein Fachsprachenfokus wirklich besser?

2 bibliographische Datenbanken im Test:• Inspec• Medline (Ohsumed Kollektion)

Search Term Recommender - Forschungsfragen

Unterschiede in der Fachsprache (Überlappung von Begriffen)

Unterschiede in der Indexierungssprache (Überlappung von Deskriptoren)

Unterschiede in den Suchwortvorschlägen des Search Term Recommenders (Überlappung der vorgeschlagenen Suchworte)

Unterschiede in der Sprache

Inspec Fachsprachen (Überlappung der Begriffe)

20%

7%

13%

13%

4%

33%

13%

Physics

ElectricalEngineering

Computers

Analysierte Begriffe: 60.601

Überlappung der Deskriptoren: 87% (in 2 oder 3 Fachbereichen)Überlappung der vorgeschlagenen Suchworte: 30%

Ohsumed Fachsprachen (Überlappung der Begriffe)

Analysierte Begriffe: 11.663

Überlappung der Deskriptoren: 32% (in 2 oder 3 Fachbereichen)Überlappung der vorgeschlagenen Suchworte: 30%

13%

29%

8%

19%

2%

21%

7%

CommunicableDiseases

GynecologyOrthopedics

1. Wie können Fachbereiche und Fachsprachen in einer Informationskollektion identifiziert werden?

2. Sind Fachsprachen wirklich unterschiedlich?

3. Ist ein Fachsprachenfokus wirklich besser?

2 bibliographische Datenbanken im Test:• Inspec• Medline (Ohsumed Kollektion)

Search Term Recommender - Forschungsfragen

• Vorschlagen von Deskriptoren für Dokumente

Testfall: Automatische Klassifikation

Titel

STRTitel

Deskriptor 1

Deskriptor 2

Anfrage

SpeziellerSTR für

Fachbereich

AllgemeinerSTR für gesamte

Datenbank

• Vergleich:

TitelDeskriptor 1

Deskriptor 2

TitelDeskriptor 1

Deskriptor 2

Wer schlägt bessere

Deskriptoren vor?

Titel: “A search for clusters of protostars in Orion cloud cores”

Testfall: Automatische Klassifikation

Ursprüngliche Deskriptoren

Fachbereich Search Term Recommender

Allgemeiner Search Term Recommender

1. Infrared sources (astronomical)

2. Interstellar molecular clouds

3. Pre-main-sequence stars

4. Star associations

1. Clouds2. Clusters of galaxies3. Interstellar molecular

clouds4. Star clusters5. Pre-main-sequence

stars

1. Search problems2. Clouds3. Atomic clusters4. Clusters of

galaxies5. Interstellar

molecular clouds

Evaluation bei 5 vorgeschlagenen Deskriptoren: Recall: Trefferquote 2/4 = 0,5 1/4 = 0,25

Precision: Genauigkeit 2/5 = 0,4 1/5 = 0,20

Inspec STR

Inspec specialties and general STRs

0,0

0,1

0,2

0,3

0,4

0,5

0,0 0,1 0,2 0,3 0,4 0,5Recall

Prec

ision

Individual Specialty STRs

General STR

Testdokumente: 42.735

Fachbereiche: 3

Erste 3 Vorschläge:

Recall: +13,6%

Precision: +11,2%

Ohsumed STR

Ohsumed specialties and general STR

0

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0 0.1 0.2 0.3 0.4 0.5 0.6 0.7Recall

Prec

ision

Individual Specialty STRsGeneral STR

Erste 3 Vorschläge:

Recall: +26%

Precision: +25,6%

Testdokumente: 18.733

Fachbereiche: 33

1. Wie können Fachbereiche und Fachsprachen in einer Informationskollektion identifiziert werden?

– Inspec: Fachklassifikation– Ohsumed: Journal Fachbereich

2. Sind Fachsprachen wirklich unterschiedlich?– Inspec Fachbereiche: Begriff Überlappung 50%, Suchwort

Überlappung 30%– Ohsumed Fachbereiche: Begriff Überlappung 30%, Suchwort

Überlappung 30%

3. Macht ein Fachsprachenfokus die Suche effizienter?– Inspec Fachbereiche: 10% Verbesserung über allg. STR– Ohsumed Fachbereiche: 25% Verbesserung über allg. STR

Zusammenfassung

Verminderung des Sprachproblems im Retrieval

Search Term Recommender:

See also:

FIDDLES50% Discount!

Danke!vivienp@sims.berkeley.edu