9. Information Retrieval und Medizinische Literaturdatenbanken
Wintersemester 2010/11Dozent: Univ.-Prof. Dr. med. Stefan Schulz
Sucher-gebnisse
Kollektion von Dokumenten(Dokumentationseinheiten)
Anfrage (Query) ?
Dokumentenretrieval
Problem 1: eindeutige Formulierung der Suchanfrage
Mehrdeutige Begriffe
• Ein Patient kennt das Wort "Ventrikel" nicht und gibt das Wort in eine Suchmaschine ein
• Wo liegt das Problem?
Ventrikel
Zwei Sprachphänomene, die die Textrecherche erschweren
• Synoymie: Ein Gegenstand lässt sich durch
unterschiedliche sprachliche Zeichen ausdrücken
• Homonymie (Ambiguität) : Unterschiedliche
Gegenstände werden mit demselben sprachlichen
Ausdruck belegt
Relevante Dokumente
Suchanfrage
Suchanfrage
RelevanteDokumente
Suchanfrage
RelevanteDokumente
Suchmaschine
Suchanfrage
RelevanteDokumente
Eine Suchanfrage…
• Teilt den Dokumentenraum in– Relevante– Nicht relevante Dokumente
• Eine Suchmaschine (IR-System)– Findet relevante, aber auch nichtrelevante– Verfehlt relevante, schließt nichtrelevante aus
RelevanteDokumente
NichtrelevanteDokumente
GefundeneDokumente
NichtgefundeneDokumente
RelevanteDokumente
NichtrelevanteDokumente
GefundeneDokumente
NichtgefundeneDokumente
Precision (Genauigkeit):Anteil der relevanten an den gefundenen
Dokumenten
RelevanteDokumente
NichtrelevanteDokumente
GefundeneDokumente
NichtgefundeneDokumente
Recall (Ausbeute, Sensitivität):Anteil der gefundenen relevanten an allen
relevanten Dokumenten
Übung zu Precision / Recall
• Ein Lehrbuch enthält Krankheitsbeschreibungen zu :Pneumonie, Pankreatitis, Hepatitis, Arthritis, Diabetes mellitus, Thyreoiditis, Gonarthrose, M. Crohn, Appendizitis, Rachitis.
• Ziel: Selektiere alle Dokumente über entzündliche Erkrankungen• Methode: Jeder Titel, der den Teilstring "itis" enthält, wird als
relevant betrachtet.• Wie ist die Precision, wie der Recall dieser Methode ?• Gegeben eine große (n > 1000) Dokumentenkollektion, was ist
einfacher zu messen, Precision oder Recall ?
Übung zu Precision / Recall
• Ein Lehrbuch enthält Krankheitsbeschreibungen zu :Pneumonie, Pankreatitis, Hepatitis, Arthritis, Diabetes mellitus, Thyreoiditis, Gonarthrose, M. Crohn, Appendizitis, Rachitis.
• Ziel: Selektiere alle Dokumente über entzündliche Erkrankungen• Methode: Jeder Titel, der den Teilstring "itis" enthält, wird als
relevant betrachtet.• Wie ist die Precision, wie der Recall dieser Methode ?• Gegeben eine große (n > 1000) Dokumentenkollektion, was ist
einfacher zu messen, Precision oder Recall ?
Indexierung
• Feststellen und Kennzeichnen des Inhalts einer Dokumentationseinheit mit Hilfe sogenannter Deskriptoren
• Zuordnung von Deskriptoren zu Dokumentationseinheiten: Indexieren
• Manuelles Indexieren: Zuweisung von Deskriptoren aus einem vorgegebenen Vokabular durch Experten
Manuelles Indexieren
• Beispiel:MEDLINE• Fachkräfte weisen jedem Dokument
Deskriptoren aus einem Indexierungsvokabular zu.
• Indexierungsvokabular: MeSH(Medical Subject Headings)Multihierarchisches Schlagwortsystem
Automatisches Indexieren
• Beispiel: GOOGLE • "Crawler" bewegen sich automatisch /
zufallsgesteuert durch das World Wide Web und erstellen / aktualisieren Index
• Indexierungsvokabular: sämtliche Textwörter minus Stoppwörter
Suchmaschinen• Gleichen Anfrage ab mit (asynchron erstelltem) Index• Auswahl und Verknüpfung der Indexterms bedingt die
Dokumentenselektion
Schilddrüsen-krankheiten
Radioaktivität Schilddrüsen-krankheiten
Radioaktivität
Suchmaschinen• Gleichen Anfrage ab mit (asynchron erstelltem) Index• Auswahl und Verknüpfung der Indexterms bedingt die
Dokumentenselektion
AND OR
Anfragesyntax
• Vorsicht: Jede Suchmaschine hat ihre eigene Syntax
• Typische Operatoren• Boolesche Operatoren: AND OR NOT• Trunkierung, z.B. magen*• Phrasen: "sick sinus syndrome"• Synonyme: ~Kidney (z.B. Google,
aber Vorsicht! )
Medline-Datenbank
• Inhalt: Bibliographische Angaben zu biomedizinischen Publikation in (ausgewählten) wissenschaftlichen Fachzeitschriften und Sammelbänden.
• Anbieter: National Library of Medicine (USA)• 5300 Journals• 37 Sprachen• Referenzen von 1949 bis heute• 2000 – 4000 neue Referenzen täglich
PubMed Suchoberfläche
• Anbieter: National Library of Medicine• Freier Zugang zur Medline Datenbank
– http://pubmed.gov
http://www.ncbi.nlm.nih.gov/About/tools/restable_stat_pubmed.html
x 1000
18.317.256
368.521
417.200
609.632
473.244Medlinein processsupplied by publisherOther [PubMed]OldMedline
Umfang in PubMed Aktualität
Medline in processSupplied by Publisher,Other:
nicht oder unvollständigverschlagwortet
nicht mit MeSH suchbar
Medline:
Verschlagwortung nach einigen Tagen bis zu einigen Monaten
~ 5.300 Medline Journals
20.185.853 Zitate
Am 21.09.2010
Oldmedline wird sukzessive in Medline integriert
MEDLINE - Datenbankeintrag
MEDLINE - Datenbankeintrag
Medical Subject Headings (MeSH)
• Ca. 25.000 MeSH-Deskriptoren• 160.000 Entry Terms (Synonyme und
spezifischere Terms)• 76 Subheadings (“Qualifier”)
– “Therapy”, “Prevention and Control”• Definitionen• Indexierungszeitraum
http://www.nlm.nih.gov/pubs/factsheets/mesh.html
MeSH
• Poly-hierarchische Struktur (ein Term kann mehrere Eltern haben)
All
Diseases Category
Diseases Category
Pathological Conditions, Signs and Symptoms
Digestive System Diseases
Gastrointestinal Diseases Hemorrhage
Gastrointestinal Hemorrhage
Hematemesis Melena Peptic Ulcer Hemorrhage
Welche Wörter sollen in einer Textwortsuche verwendet werden?
• Prävention von Ösophagus-varizen-blutungen
Suche nach Primärprophylaxe von Ösophagusvarizenblutungen
1. Beta-blocker plus nitrate for primary prophylaxis of variceal bleeding.
2. Efficacy of prophylactic sclerotherapy for prevention of a first variceal hemorrhage.
3. Beta-blockers for the prevention of variceal haemorrhage in patients with cirrhosis.
4. Primary prevention of bleeding from esophageal varices.
Prevention of variceal bleeding (Textwortsuche)
• Bleeding• Hemorrhage(s)• Haemorrhage(s)
• Variceal• Varices• Varix
• Prophylaxis• Prevention
Prevention of variceal bleeding (Textwortsuche, Trunkierung)
• Bleed*• Hemorrhag*• Haemorrhag*
• Varic*
• Prohyla*• Prevent*
Prevention of variceal bleeding (Textwortsuche, log. Operatoren)
• Bleed*• Hemorrhag*• Haemorrhag*
• Varic*
• Prophyla*• Prevent*
OR
OR
AND
(bleed* OR hemorrhag* OR haemorrhag*) AND varic* AND (prophyla* OR prevent*)
Vorteile:
Synonyme und versch. Schreibweisen werden automatisch berücksichtigt.
Bei hierarchischem Aufbau Suche nach Ober- und Unterbegriffen in einem Schritt.
Inhaltliche Zusammenhänge sind suchbardurch MeSH/Subheading-Kombination.Bsp.: Gastrointestinal Hemorrhage/prevention & control
Artikel durch Fachpersonal verschlagwortetvergebenes Schlagwort ist Gegenstand der Arbeit.
Vor- und Nachteile der Suche mit MeSH
Nachteile:
Uneinheitliche Verschlagwortung(Indexierung)
Zutreffendes wird nicht gefunden.
Aktuelle, noch nicht verschlagwortete Artikel werden nicht gefunden (Komponente Premedline).
Für neue Substanznamen oder neue medizinische Termeexistiert noch kein MeSH.
Suche einschränken
Suche weiter einschränken
Search history
Automatic term mapping
• Naive Suche
• Automatischer Abgleich mit Indexen– MeSH, Journal, Author
Expansion von Trunkierungen
SuchstrategienAnalyse der Fragestellung - PICO - Blöcke bilden (Aspekte)
Suchbegriffe - zu jedem Block
Schlagwortsuche - MeSH - explode (erweitern) - subheadings (eingrenzen)
Textwortsuche - Synonyme - verwandte Begriffe - sprachliche Vielfalt (Trunkierung) E
insc
hrän
kung
(lim
its, f
ilter
)
Kom
bina
tion
(OR
, AN
D)
Frage in Blöcke zerlegen(PICO)
Suchbegriffe finden
MeSH-Term(s) - Explode:
erweitern- Subheadings: eingrenzen
Textwörter (verwandte Begriffe, Synonyme, Trunkierung)
Begriffe kombinieren OR
Textwörter (verwandte Begriffe, Synonyme, Trunkierung)
OR
AND
Aspekt 1 Aspekt 2 Evtl. weitereAspekte Suchfilter
z.B. Cochrane highly sensitive search filter for randomized controlled trials.
Aspekte kombinieren
AND
MeSH-Term(s) - Explode:
erweitern- Subheadings: eingrenzen