Möglichkeiten und Grenzen der Recherche mit Suchmaschinen

Post on 25-Jan-2015

299 views 2 download

description

 

transcript

Möglichkeiten und Grenzen der Recherche mit Suchmaschinen

Prof. Dr. Dirk Lewandowski dirk.lewandowski@haw-hamburg.de

1 |

Bedeutung der Suchmaschinen

•  Suchmaschinen sind der Zugang zu Informationen im Netz. – Andere Zugänge (Kataloge, usw.) haben kaum noch Bedeutung. – Suchmaschinen bestimmen über die sichtbaren Inhalte des Web. – Suchmaschinen bestimmen das Nutzerverhalten (auch für andere

Informationssysteme).

2 |

Warum sind Alternativen notwendig?

•  Qualität der Ergebnisse

•  Vielfalt –  „Zweite Meinung“

•  Trefferpräsentation

•  Nutzerbindung – Verknüpfung von Nutzungsdaten mit Nutzerprofilen

•  Innovation

Alternativen

•  Andere Universalsuchmaschinen

•  Spezielle Kollektionen

•  Spezialsuchmaschinen

•  Kommerzielle Datenbanken

•  Freie Datenbanken im Invisible Web

4 |

Suchmaschinenmarkt (D)

Quelle: Webhits.de

5 |

Web search: „Always different, always the same“

http://web.archive.org/web/19961023234631/http://altavista.digital.com/

AltaVista 1996

6 |

Wo stehen Suchmaschinen heute?

•  Große Web-Datenbanken sind vorhanden •  Google, Yahoo, MSN/Live.com, Ask, Cuil •  Betrieb dieser Datenbanken technisch möglich.

•  Navigationsanfragen können zuverlässig beantwortet werden.

•  Informationsorientierte Anfragen können meist zufriedenstellend beantwortet werden. •  Großer Unterschied zwischen den Anfragen. •  Keine Suchmaschine kann alle Anfragen am besten beantworten.

•  Integration zusätzlicher Quellen •  Spezialisierte Web-Datenbanken: News, Blogs, Video, usw. •  Shortcuts: Wetter, Reise, Patente, usw. •  Zukunft: Faktenextraktion

•  Einbindung kostenpflichtiger Dokumente

„Die meisten Nutzer sind nicht willens, bei der Formulierung ihres Suchziels allzu viel kognitive und zeitliche Energie aufzuwenden.“

•  Suchanfragen – Durchschnittliche Länge: 1,7 Wörter – Ca. 50% Einwort-Anfragen

•  Ergebnisseiten – 80% der Nutzer gehen nicht über die erste Ergebnisseite hinaus. – Nutzer betrachten bevorzugt die ersten Ergebnisse (“über dem Knick”). – Pro Session werden bis etwa fünf Dokumente angesehen. – Sessions dauern i.d.R. weniger als 15 Minuten.

•  Nutzer sind meist mit ihren Suchergebnissen zufrieden.

•  Nutzer erwarten, dass alle Systeme so leicht zu bedienen sind wie Google.

(Machill et al. 2003)

8 |

Google groß

9 |

Selektionsverhalten (Top11 Treffer)

(Granka et al. 2004)

10 |

Die Qualität von Suchmaschinen kann nur durch eine Kombination unterschiedlicher Faktoren gemessen werden. Qualitätsfaktoren für Suchmaschinen

•  Qualität des Index –  Größe des Datenbestands, Abdeckung des Web –  Abdeckung bestimmter Bereiche (Sprachräume, Länder) –  Überschneidungen der Indices –  Aktualität des Datenbestands

•  Qualität der Suchresultate –  Retrievaleffektivität –  Zufriedenheit der Nutzer –  Überschneidungen der (Top-)Ergebnisse

•  Qualität der Suchfunktionen

•  Nutzerfreundlichkeit + Benutzerführung (Lewandowski & Höchstötter 2007)

11 |

Web-Abdeckung

Keine Suchmaschine deckt das gesamte Web ab! – Aber: keine genauen Zahlen; aktuelle Untersuchungen fehlen. – Größe des Web ist unbekannt; die großen Suchmaschinen haben einige

Milliarden Dokumente indexiert. – Wenig erforschter Bereich: Invisible Web.

12 |

Taxonomie der digitalen Online-Information

(Stock 2003)

13 |

Top 10 Precision

0,00

0,10

0,20

0,30

0,40

0,50

0,60

0,70

0,80

0,90

1,00

Number of results

Precis

ion

Google

Yahoo

Live

Metager

Cuil

Google 0,60 0,58 0,59 0,57 0,55 0,53 0,51 0,52 0,50 0,49

Yahoo 0,54 0,57 0,53 0,53 0,51 0,52 0,50 0,50 0,49 0,48

Live 0,48 0,48 0,49 0,45 0,46 0,45 0,43 0,43 0,42 0,41

Metager 0,30 0,29 0,25 0,23 0,20 0,19 0,18 0,18 0,17 0,16

Cuil 0,15 0,18 0,17 0,15 0,16 0,16 0,16 0,15 0,15 0,16

1 2 3 4 5 6 7 8 9 10

14 |

Skalenbewertung zeigt die Gruppierung der Suchmaschinen noch deutlicher.

Vergleich der Precision nach Listenplatz (Top20; Skala)

0,00

0,50

1,00

1,50

2,00

2,50

3,00

Trefferplatz

Du

rch

sch

nit

tlic

he P

recis

ion

Google

Yahoo

MSN

Ask

Seekport

Google 2,54 2,19 2,14 2,04 1,93 1,86 1,77 1,72 1,63 1,59 1,59 1,53 1,49 1,45 1,42 1,38 1,35 1,35 1,32 1,32

Yahoo 2,33 2,21 2,11 2,00 1,82 1,81 1,75 1,69 1,68 1,67 1,64 1,62 1,58 1,54 1,53 1,50 1,47 1,46 1,45 1,42

MSN 1,80 1,53 1,53 1,55 1,51 1,42 1,38 1,34 1,31 1,24 1,22 1,17 1,15 1,11 1,09 1,06 1,05 1,03 1,01 0,99

Ask 1,73 1,53 1,45 1,35 1,27 1,31 1,33 1,34 1,30 1,28 1,26 1,23 1,18 1,18 1,17 1,16 1,16 1,16 1,13 1,12

Seekport 1,65 1,48 1,41 1,44 1,40 1,36 1,32 1,24 1,20 1,17 1,18 1,16 1,13 1,11 1,07 1,04 1,01 1,00 0,98 0,97

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20

15 |

Katholisch? Evangelisch? Ja, was denn nun?

16 |

Neonazis informieren über schwarzen Bürgerrechtler

Grundlegende Suchfunktionen

•  Boolesche Operatoren – Yahoo, MSN, Ask: vollständige Unterstützung. – Google: keine vollständige Unterstützung, OR arbeitet unzuverlässig,

Klammerung funktioniert nicht.

•  Phrasensuche –  funktioniert bei allen

•  Abstandsoperatoren – nur bei Exalead

Suche über Felder

in der erweiterten Suche oder über Befehle

•  Titel: –  title:

•  Dateityp: –  filetype:

•  URL: –  inurl:

•  bestimmter Server: –  site:

•  Land (über Top-Level-Domain) –  site:

•  Verlinkung: –  link:

•  Sprache

•  Datum

19 |

Funktionsfähigkeit der Datumsbeschränkung

Quelle: Lewandowski 2004

20 |

Funktionstüchtigkeit der Sprachbeschränkung (deutsch-englisch)

Lewandowski 2008

Weitere Suchmöglichkeiten

•  Ähnliche Seiten

•  Cache Copies – Google, Yahoo, MSN – bei Ask teilweise

•  Alte Versionen von Websites – Wayback Machine: www.archive.org

22 |

Suche jenseits von Google und Co.

23 |

Grenzen der Suchmaschinen

•  Suchmaschinen werden immer „Gemischtwarenläden“ bleiben. •  Orientierung am Bedarf der Masse, auch wenn durch Personalisierung gemildert.

•  Die Recherche in Suchmaschinen wird auch in Zukunft ungenau und zeitraubend bleiben.

•  Oft sind nicht relevante Dokumente gefragt, sondern vollständige und verlässliche Ergebnissets.

•  Auch wenn das Quellenspektrum in den letzten Jahren wesentlich erweitert wurde, fehlen in den Suchmaschinen wesentliche Quellen.

•  Das Zusammenführen „beider Welten“ ist noch nicht gelungen. •  Nicht auf der Seite der Suchmaschinen. •  Nicht auf der Seite der Anbieter von Fachinformationen.

Vielen Dank für Ihre Aufmerksamkeit.

www.bui.haw-hamburg.de/lewandowski.html

Aktuelle Bücher: Handbuch Internet-Suchmaschinen

Web-2.0-Dienste als Ergänzung zu algorithmischen Suchmaschinen

E-Mail: dirk.lewandowski@haw-hamburg.de