Date post: | 25-Jan-2015 |
Category: |
Technology |
Upload: | dirk-lewandowski |
View: | 299 times |
Download: | 2 times |
Möglichkeiten und Grenzen der Recherche mit Suchmaschinen
Prof. Dr. Dirk Lewandowski [email protected]
1 |
Bedeutung der Suchmaschinen
• Suchmaschinen sind der Zugang zu Informationen im Netz. – Andere Zugänge (Kataloge, usw.) haben kaum noch Bedeutung. – Suchmaschinen bestimmen über die sichtbaren Inhalte des Web. – Suchmaschinen bestimmen das Nutzerverhalten (auch für andere
Informationssysteme).
2 |
Warum sind Alternativen notwendig?
• Qualität der Ergebnisse
• Vielfalt – „Zweite Meinung“
• Trefferpräsentation
• Nutzerbindung – Verknüpfung von Nutzungsdaten mit Nutzerprofilen
• Innovation
Alternativen
• Andere Universalsuchmaschinen
• Spezielle Kollektionen
• Spezialsuchmaschinen
• Kommerzielle Datenbanken
• Freie Datenbanken im Invisible Web
4 |
Suchmaschinenmarkt (D)
Quelle: Webhits.de
5 |
Web search: „Always different, always the same“
http://web.archive.org/web/19961023234631/http://altavista.digital.com/
AltaVista 1996
6 |
Wo stehen Suchmaschinen heute?
• Große Web-Datenbanken sind vorhanden • Google, Yahoo, MSN/Live.com, Ask, Cuil • Betrieb dieser Datenbanken technisch möglich.
• Navigationsanfragen können zuverlässig beantwortet werden.
• Informationsorientierte Anfragen können meist zufriedenstellend beantwortet werden. • Großer Unterschied zwischen den Anfragen. • Keine Suchmaschine kann alle Anfragen am besten beantworten.
• Integration zusätzlicher Quellen • Spezialisierte Web-Datenbanken: News, Blogs, Video, usw. • Shortcuts: Wetter, Reise, Patente, usw. • Zukunft: Faktenextraktion
• Einbindung kostenpflichtiger Dokumente
„Die meisten Nutzer sind nicht willens, bei der Formulierung ihres Suchziels allzu viel kognitive und zeitliche Energie aufzuwenden.“
• Suchanfragen – Durchschnittliche Länge: 1,7 Wörter – Ca. 50% Einwort-Anfragen
• Ergebnisseiten – 80% der Nutzer gehen nicht über die erste Ergebnisseite hinaus. – Nutzer betrachten bevorzugt die ersten Ergebnisse (“über dem Knick”). – Pro Session werden bis etwa fünf Dokumente angesehen. – Sessions dauern i.d.R. weniger als 15 Minuten.
• Nutzer sind meist mit ihren Suchergebnissen zufrieden.
• Nutzer erwarten, dass alle Systeme so leicht zu bedienen sind wie Google.
(Machill et al. 2003)
8 |
Google groß
9 |
Selektionsverhalten (Top11 Treffer)
(Granka et al. 2004)
10 |
Die Qualität von Suchmaschinen kann nur durch eine Kombination unterschiedlicher Faktoren gemessen werden. Qualitätsfaktoren für Suchmaschinen
• Qualität des Index – Größe des Datenbestands, Abdeckung des Web – Abdeckung bestimmter Bereiche (Sprachräume, Länder) – Überschneidungen der Indices – Aktualität des Datenbestands
• Qualität der Suchresultate – Retrievaleffektivität – Zufriedenheit der Nutzer – Überschneidungen der (Top-)Ergebnisse
• Qualität der Suchfunktionen
• Nutzerfreundlichkeit + Benutzerführung (Lewandowski & Höchstötter 2007)
11 |
Web-Abdeckung
Keine Suchmaschine deckt das gesamte Web ab! – Aber: keine genauen Zahlen; aktuelle Untersuchungen fehlen. – Größe des Web ist unbekannt; die großen Suchmaschinen haben einige
Milliarden Dokumente indexiert. – Wenig erforschter Bereich: Invisible Web.
12 |
Taxonomie der digitalen Online-Information
(Stock 2003)
13 |
Top 10 Precision
0,00
0,10
0,20
0,30
0,40
0,50
0,60
0,70
0,80
0,90
1,00
Number of results
Precis
ion
Yahoo
Live
Metager
Cuil
Google 0,60 0,58 0,59 0,57 0,55 0,53 0,51 0,52 0,50 0,49
Yahoo 0,54 0,57 0,53 0,53 0,51 0,52 0,50 0,50 0,49 0,48
Live 0,48 0,48 0,49 0,45 0,46 0,45 0,43 0,43 0,42 0,41
Metager 0,30 0,29 0,25 0,23 0,20 0,19 0,18 0,18 0,17 0,16
Cuil 0,15 0,18 0,17 0,15 0,16 0,16 0,16 0,15 0,15 0,16
1 2 3 4 5 6 7 8 9 10
14 |
Skalenbewertung zeigt die Gruppierung der Suchmaschinen noch deutlicher.
Vergleich der Precision nach Listenplatz (Top20; Skala)
0,00
0,50
1,00
1,50
2,00
2,50
3,00
Trefferplatz
Du
rch
sch
nit
tlic
he P
recis
ion
Yahoo
MSN
Ask
Seekport
Google 2,54 2,19 2,14 2,04 1,93 1,86 1,77 1,72 1,63 1,59 1,59 1,53 1,49 1,45 1,42 1,38 1,35 1,35 1,32 1,32
Yahoo 2,33 2,21 2,11 2,00 1,82 1,81 1,75 1,69 1,68 1,67 1,64 1,62 1,58 1,54 1,53 1,50 1,47 1,46 1,45 1,42
MSN 1,80 1,53 1,53 1,55 1,51 1,42 1,38 1,34 1,31 1,24 1,22 1,17 1,15 1,11 1,09 1,06 1,05 1,03 1,01 0,99
Ask 1,73 1,53 1,45 1,35 1,27 1,31 1,33 1,34 1,30 1,28 1,26 1,23 1,18 1,18 1,17 1,16 1,16 1,16 1,13 1,12
Seekport 1,65 1,48 1,41 1,44 1,40 1,36 1,32 1,24 1,20 1,17 1,18 1,16 1,13 1,11 1,07 1,04 1,01 1,00 0,98 0,97
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20
15 |
Katholisch? Evangelisch? Ja, was denn nun?
16 |
Neonazis informieren über schwarzen Bürgerrechtler
Grundlegende Suchfunktionen
• Boolesche Operatoren – Yahoo, MSN, Ask: vollständige Unterstützung. – Google: keine vollständige Unterstützung, OR arbeitet unzuverlässig,
Klammerung funktioniert nicht.
• Phrasensuche – funktioniert bei allen
• Abstandsoperatoren – nur bei Exalead
Suche über Felder
in der erweiterten Suche oder über Befehle
• Titel: – title:
• Dateityp: – filetype:
• URL: – inurl:
• bestimmter Server: – site:
• Land (über Top-Level-Domain) – site:
• Verlinkung: – link:
• Sprache
• Datum
19 |
Funktionsfähigkeit der Datumsbeschränkung
Quelle: Lewandowski 2004
20 |
Funktionstüchtigkeit der Sprachbeschränkung (deutsch-englisch)
Lewandowski 2008
Weitere Suchmöglichkeiten
• Ähnliche Seiten
• Cache Copies – Google, Yahoo, MSN – bei Ask teilweise
• Alte Versionen von Websites – Wayback Machine: www.archive.org
22 |
Suche jenseits von Google und Co.
23 |
Grenzen der Suchmaschinen
• Suchmaschinen werden immer „Gemischtwarenläden“ bleiben. • Orientierung am Bedarf der Masse, auch wenn durch Personalisierung gemildert.
• Die Recherche in Suchmaschinen wird auch in Zukunft ungenau und zeitraubend bleiben.
• Oft sind nicht relevante Dokumente gefragt, sondern vollständige und verlässliche Ergebnissets.
• Auch wenn das Quellenspektrum in den letzten Jahren wesentlich erweitert wurde, fehlen in den Suchmaschinen wesentliche Quellen.
• Das Zusammenführen „beider Welten“ ist noch nicht gelungen. • Nicht auf der Seite der Suchmaschinen. • Nicht auf der Seite der Anbieter von Fachinformationen.
Vielen Dank für Ihre Aufmerksamkeit.
www.bui.haw-hamburg.de/lewandowski.html
Aktuelle Bücher: Handbuch Internet-Suchmaschinen
Web-2.0-Dienste als Ergänzung zu algorithmischen Suchmaschinen
E-Mail: [email protected]