Meta-SuchmaschinenMeta-Suchmaschinen
Klaus Kopperschmidt
22. Januar 2001
22. Januar 2001 Meta-Suchmaschinen 2
Inhalt des VortragsInhalt des Vortrags
• Vorstellen, Einleitung und Motivation
• Klassifikation von Suchdiensten
• Suchmaschinen
• Überlegungen zur Konzeptionierung
• Beispiele von Meta-Suchmaschinen
• Fazit und Ausblick
22. Januar 2001 Meta-Suchmaschinen 3
Anforderungen an eine Recherche im WWWAnforderungen an eine Recherche im WWW
• Die Recherche sollte so vollständig, wie möglich sein.
• Das Ergebnis sollte eine hohe Qualität haben.
• Das Ergebnis sollte schnell verfügbar sein.
22. Januar 2001 Meta-Suchmaschinen 4
Internet Suchdienste Klassifizierung und BeispieleInternet Suchdienste Klassifizierung und Beispiele
• Katalog, Directory– Yahoo, Lycos usw.
• Suchmaschine, Crawler, Spider, Robot– Hotbot, Yahoo, Lycos, Google, Altavista,
Webcrawler usw.
• All-in-one-form
• Meta-Suchmaschine– Metacrawler, Highway 61, DogPile
22. Januar 2001 Meta-Suchmaschinen 5
WWW und SuchmaschinenWWW und Suchmaschinen
• ca. 27% Abdeckung bei Altavista, May 1999– Quelle: www.searchenginewatch.com
• Google 600.000.000 Webseiten indiziert und 1.200.000.000 bekannt, Nov. 2000 – Quelle: www.searchenginewatch.com
• 93.047.785 Domain-Namen im Juli 2000 – Quelle: Internet Software Consortium
http://www.isc.org/ds/WWW-200007/index.html
• mehr als 550.000.000.000 Seiten im „Deep Web“– Quelle: Test 8/2000
22. Januar 2001 Meta-Suchmaschinen 6
Suchmaschinen - Suchmaschinen - Wachstum seit 1995 und aktuelle GrößeWachstum seit 1995 und aktuelle Größe
Quelle: www.searchenginewatch.comStand: 08. November 2000
22. Januar 2001 Meta-Suchmaschinen 7
Probleme bei SuchmaschinenProbleme bei Suchmaschinen
• Vollständige Netzabdeckung
• Erreichbarkeit
• 404-Webseite und Aktualität
• Bedienung (Syntax)
• Ungenaue Anfragen
• Search-Engine-Spamming
22. Januar 2001 Meta-Suchmaschinen 8
Klassisches Konzept einer Meta-SuchmaschineKlassisches Konzept einer Meta-Suchmaschine
Die Benutzer stellen Anfragen.
Die Meta-Suchmaschine formuliert die Anfragen für die verschiedenen Suchmaschinen
Excite
...
Yahoo
Die Meta-Suchmaschine verarbeitet die Ergebnisse
Die Benutzer bekommen das Ergebnis präsentiert
22. Januar 2001 Meta-Suchmaschinen 9
Überlegungen zur ErgebnisbehandlungÜberlegungen zur Ergebnisbehandlung
• Direkte Übernahme des Ergebnisses– komplett– ausschnittsweise
• Bearbeiten der Ergebnisse– entfernen von „dead links“– verschmelzen der Ergebnisse (Ranking-Problem)– filtern von identischen Webseiten
(Eine Seite wird durch genau einen Link repräsentiert.)
22. Januar 2001 Meta-Suchmaschinen 10
Identische Webseiten erkennenIdentische Webseiten erkennen
• Bsp.: http://www.cs.washington.edu/homes/speed/home.htmlhttp://www.cs.washington.edu/homes/selberg
• Identische Domain, unterschiedlicher Pfad– Überprüfung, ob es sich um ein Standard-Alias
handelt.– Überprüfung, ob der Titel der Web-Seiten gleich
ist.– Kompletter Text-Vergleich
22. Januar 2001 Meta-Suchmaschinen 11
• Skalen, Bsp.: Metacrawler 0-100%, Lycos 0-1, OpenText 0-
• Unterschiedl. Bots -> unterschiedl. Indizierung bzw. Gewichtungsalgorith. -> unterschiedl. Ranking
• Rankings abhängig von Anzahl des vorkommenden Suchbegriffs, Wortabstand, Anzahl der Referenzen
• Search-Engine-Spamming
Ranking - ProblemRanking - Problem
Quelle: Inquirus
22. Januar 2001 Meta-Suchmaschinen 12
Weitergehende Überlegungen zur ArchitekturWeitergehende Überlegungen zur Architektur
• client-based oder server-based
• online vs. last-mile-Problem
• Anfrage-Syntax und update-Problem
22. Januar 2001 Meta-Suchmaschinen 13
Meta-SuchmaschinenMeta-Suchmaschinen
• MetaCrawler, MetaGer
• PrologCrawler
• Inquirus
• Personal Search Assistants
• MetaSeek
22. Januar 2001 Meta-Suchmaschinen 14
MetaCrawler (I)MetaCrawler (I)
• Http://www.metacrawler.com
• University of Washington in Seattle (Diplomarbeit)
• Betrieben von Go2net, Inc. (jetzt InfoSpace)
• C++, Linux und Apache Webserver
• 10x 2*400 Mhz PentiumII mit 512MB RAM
22. Januar 2001 Meta-Suchmaschinen 15
MetaCrawler (II)MetaCrawler (II)
Quelle: „The MetaCrawler ArchitectureResource Aggregation on the Web“by Selberg und Etzioni
22. Januar 2001 Meta-Suchmaschinen 16
PrologCrawler (I)PrologCrawler (I)
• Pentium 200 mit Red Hat Linux 5.0 und Apache Webserver
• Sicstus Prolog 3.7.1 + PiLLoW-Library
• weniger als 500 LOC• run(simple(Query,Nres,Ord), ResultsPage) :-
s_search(Query,Nres,Results), s_process(Nres,Results,FilteredResults), sort(FilteredResults,Ord,SortedResults), build_html(SortedResults,ResultsPage).
22. Januar 2001 Meta-Suchmaschinen 17
PrologCrawler (II)PrologCrawler (II)
Quelle:
„A Prolog Meta-Search Engine for the World Wide Web“ von
E. Bolognesi und A. Brogi
22. Januar 2001 Meta-Suchmaschinen 18
Inquirus (I)Inquirus (I)
• Http://www.inquirus.com nur für akademische Testzwecke
• Perl
• Pentium Pro 200
• Holt Links von Suchmaschinen und untersucht eigenständig die zurückgelieferten Webseiten auf Relevanz und bewertet sie.
22. Januar 2001 Meta-Suchmaschinen 19
Inquirus (II)Inquirus (II)
Quelle:
„Inquirus, the NECI meta search engine“ von S. Lawrence und C.L. Giles
22. Januar 2001 Meta-Suchmaschinen 20
Personal Search Assistant (I)Personal Search Assistant (I)
• Gibt es jede Mengez.Bsp.: PSA, WebFerret, WebShades, Unified Financial Assistant usw.
• Benutzer-Profile
• Lokal im Hintergrund
• Meist Browserunabhängig
22. Januar 2001 Meta-Suchmaschinen 21
Personal Search Assistant (II)Personal Search Assistant (II)
Quelle:
„Personal Search Assistant: A Configurable Personal Meta Search Engine“ von
P.R. Kaushik und K.N. Murthy
22. Januar 2001 Meta-Suchmaschinen 22
Abschliessender VergleichAbschliessender Vergleich
Eigenschaften MetaCrawler
PrologCrawler
Inquirus PSA
Nutzbar - () Kompl. Netzabdeckung - - - -
„Online“ ()Timeouts ()Zeitraum - - - ()
Pers. Suche - - - Aktualität () -
404-Problem () Qualität d. Ergebnisses () () () ()
22. Januar 2001 Meta-Suchmaschinen 23
FazitFazit
• 550.000.000.000 Webseiten
• Weiteres exponentielles Wachstum bei geringerem Wachstum der Suchmaschinen-Indices
• Meta-Suchmaschinen sind kein Allheilmittel, da sie auf Suchmaschinen bauen.
• Neue Jobs: Information-Broker usw.