Information Retrieval (SS 2011) - Evaluierung von...

transcript

5. Evaluierung von IR-‐Systemen

Informa8on Retrieval (SS 2011) 5. Evaluierung von IR-‐Systemen

Rückblick✦ Inver&erter Index als wich8ge Indexstruktur im IR

✦ External Memory Sort als Schlüssel zur effizienten Indexierung

✦ Anfragebearbeitung auf dokument-‐sor8erten Indexlisten (TAAT + DAAT) und wert-‐sor8erten Indexlisten (NRA)

✦ Kompression von Indexlisten wich8g für kurze Antwortzeiten

✦ Dynamische Indexierung mit logarithmischem Verschmelzen

✦ Verteile IR-‐Systeme auf Clustern mehrerer Rechner zur schnelleren Indexierung und Anfragebearbeitung

Mo8va8on

✦ Wie kann man feststellen ob ein IR-‐System Ergebnisse liefert,✦ welche den Benutzer zufrieden stellen?✦ die besser sind als die Ergebnisse eines anderen IR-‐Systems?

✦ Wie kann man die Leistungsfähigkeit eines IR-‐Systems beurteilen und mit der anderer IR-‐Systeme vergleichen?

The test of all knowledge is experiment.

Experiment is the sole judge of scienti:ic “truth” [Richard P. Feynman]

Inhalt

(1) Effek8vität eines IR-‐Systems Werden die rich*gen Dinge getan? (z.B. Wie gut sind die gelieferten Ergebnisse?)

(2) Effizienz eines IR-‐Systems Werden die Dinge rich*g getan? (z.B. Wie schnell werden Ergebnisse zurückgeliefert?)

5.1 Effek&vität eines IR-‐Systems✦ Im Idealfall würde man die Benutzerzufriedenheit messen

✦ Wer sind die Benutzer, die wir zufrieden stellen möchten?✦ Endbenutzer (z.B. bei Suche auf World Wide Web)✦ Unternehmen (z.B. im E-‐Commerce)

✦ Was bedeutet es, dass der Benutzer zufrieden ist?✦ schnelleres Erledigen einer Aufgabe (z.B. Urlaub buchen)✦ höherer Umsatz (z.B. im E-‐Commerce)✦ höhere Produk8vität der Mitarbeiter (z.B. in der Wissenscha[)

✦ Benutzerzufriedenheit ist schwierig direkt zu messen, daher misst man stellvertretend meist die Relevanz der Ergebnisse

Messen der Relevanz von Ergebnissen✦ Um die Relevanz von Ergebnissen zu messen, benö8gt man

✦ Gütemaßeum zu quan8fizieren, wie gut ein zurückgeliefertes Ergebnis ist

✦ Dokumentensammlungauf der das verwendete IR-‐System evaluiert werden soll

✦ Informa&onsbedürfnisse und zugehörige Anfragenals repräsenta8ve Tes_älle

✦ Relevanzbewertungendarüber ob/wie relevant Dokumente zu Informa8onsbedürfnis sind

Benchmark-‐Ini8a8ven✦ Benchmark-‐Ini&a&ven spielen bei der Evaluierung im

Informa8on Retrieval tradi8onell eine große Rolle

✦ TREC (Text Retrieval Evalua8on Conference) durchgeführt vonNIST (Na8onal Ins8tute of Standard and Technology) seit 1992mit wechselnden Tracks (z.B. En8ty, Efficiency und Blog Search)

✦ CLEF (Cross Language Evalua8on Forum) seit 2000 mit Schwerpunkt auf mul8lingualem Informa8on Retrieval

✦ INEX (Ini8a8ve for the Evalua8on of XML Retrieval) seit 2002mit Schwerpunkt auf semi-‐strukturierten Daten (XML)

Benchmark-‐Ini8a8ven✦ Track (z.B. Web) besteht aus ein oder mehreren Tasks

✦ Task (z.B. Ad-‐hoc) besteht i.d.R. aus Dokumentensammlung, Informa&onsbedürfnissen (sog. Topics) evtl. mit Anfragen sowie passenden Relevanzbewertungen (relevance assessments oder qrels)

✦ Die Teilnehmer stehen bei der Bearbeitung der Tasks im WeVbewerb zueinander

✦ Daten und Ergebnisse der Tracks sind über den WeVbewerb hinaus verfügbar, um eine Wiederholbarkeit der Experimente und Vergleichbarkeit ihrer Ergebnisse zu gewährleisten

Precision & Recall✦ Precision (Präzision)

✦ Recall (Ausbeute)

✦ Relevante Ergebnisse (true posi*ves) tp✦ Irrelevante Ergebnisse (false posi*ves) fp✦ Relevante Nicht-‐Ergebnisse (false nega*ves) fn✦ Irrelevante Nicht-‐Ergebnisse (true nega*ves) tn

#tp+#fp=

# Relevanter Dokumente im Ergebnis

# Dokumente im Ergebnis

#tp+#fn=

# Relevanter Dokumente im Ergebnis

# Relevanter Dokumente

Precision =3

5= 0.60 Recall =

5= 0.60

Precision & Recall

RelevanzbewertungenErgebnis

d11 : 1

d18 : 1

d23 : 1

d45 : 1

d67 : 1

d12 : 0

d23 : 0

d44 : 0

d50 : 0

d68 : 0

Precision & Recall✦ Precision misst Fähigkeit nur relevante Dokumente zu finden

✦ Recall misst Fähigkeit alle relevanten Dokumente zu finden

✦ Zielkonflikt (trade-‐off) zwischen Precision und Recall✦ perfekter Recall / niedrige Precision – liefere alle Dokument zurück✦ höherer Recall geht i. Allg. mit niedrigerer Precision einher

✦ Kri&kpunkte an Precision und Recall✦ Zwei voneinander abhängige Maße schwierig zu interpre8eren✦ Rangfolge der Dokumente im Ergebnis spielt keine Rolle✦ Binärer Relevanzbegriff – Dokument ist relevant oder irrelevant

F-‐Maß✦ Kombina8on von Precision P und Recall R im F-‐Maß

als gewichtetes harmonisches MiVel der beiden

✦ Für α = 0.5 erhält man das harmonische Milel von P und R

welches auch als F1-‐Maß bezeichnet wird

α 1P + (1− α) 1R

F1 =2 P R

Precision@k und Recall@k✦ Precision und Recall ignorieren Rangfolge der Ergebnisse

✦ Precision@k ermilelt Precision nur auf Top-‐k Dokumenten

✦ Recall@k ermilelt Recall nur auf Top-‐k Dokumenten

✦ Precision@k ist eines der gängigsten Gütemaße, wobei typische Werte für k in {1, 5, 10} liegen

✦ Bei Betrachtung mehrerer Informa&onsbedürfnisse oder Anfragen wird der DurchschniV (arithme8sches Milel) der Precision@k-‐Werte betrachtet

Precision@3 =1

3≈ 0.33 Recall@3 =

5= 0.2

Precision@k und Recall@k

d11 : 1

d18 : 1

d23 : 1

d45 : 1

d67 : 1

d12 : 0

d23 : 0

d44 : 0

d50 : 0

d68 : 0

Precision-‐Recall-‐Diagramm✦ Precision-‐Recall-‐Diagramm visualisiert Precision@k und

Recall@k der Top-‐k für verschiedene Werte von k

✦ Interpolierte Präzision(interpolated precision)

0 0.2 0.4 0.6 0.8 1

Recall

non-interpolated

interpolated

P(k) = maxk �≥k P(k�)

Mean Average Precision✦ Average Precision (AP) für Anfrage qj ist die durchschniVliche

Precision beim Zurückliefern eines relevanten Dokuments

✦ Mean Average Precision ist die millere Average Precision für eine Menge von Informa8onsbedürfnissen Q

AP(qj) =1

m j�

Precision(Rjk)

MAP(Q) =1

qj∈Q

m j�

Precision(Rjk)

�= 0.32

Mean Average Precision

d11 : 1

d18 : 1

d23 : 1

d45 : 1

d67 : 1

d12 : 0

d23 : 0

d44 : 0

d50 : 0

d68 : 0

nDCG✦ Precision, Recall und MAP für binäre Relevanzbewertungen,

d.h. Dokument relevant/irrelevant zu Informa8onsbedürfnis

✦ Normalized Discounted Cumula&ve Gain (nDCG) als Gütemaß für abgestude Relevanzbewertungen auf Grundlage der Top-‐k

✦ R(j,m) ist die Relevanzbewertung (z.B. irrelevant (0), teilweise relevant (1) oder relevant (2)) für m-‐tes Dokument im Ergebnis

✦ Konstante Zk normalisiert Werte auf Intervall [0, 1] anhand eines angenommenen bestmöglichen Ergebnis

NDCG(Q, k) =1

|Q|�

2R(j,m) − 1

log(1+m)

�22 − 1

log(1+ 1)+

22 − 1

log(1+ 2)+

21 − 1

log(1+ 3)

�−1

= (9.97+ 6.29+ 1.66)−1

= 0.06

NDCG(Q, 3) = Z3

�20 − 1

log(1+ 1)+

21 − 1

log(1+ 2)+

20 − 1

log(1+ 3)

= 0.06 (0+ 2.10+ 0)

= 0.13

d11 : 2

d18 : 2

d23 : 1

d45 : 1

d67 : 1

d12 : 0

d23 : 0

d44 : 0

d50 : 0

d68 : 0

Dokumentensammlung✦ Verwendung allgemein verfügbarer Dokumentensammlungen

sinnvoll, um die Wiederholbarkeit von Experimenten und die Vergleichbarkeit ihrer Ergebnisse zu gewährleisten

✦ Dokumentensammlungen aus Benchmark-‐Ini8a8ven z.B.✦ Tipster/TREC – fünf CDs mit Nachrichten und öffentl. Mileilungen✦ TREC GOV2 – 25 Millionen Webseiten aus .gov Top-‐Level Domäne ✦ ClueWeb09 – 1 Milliarde Webseiten diverser Top-‐Level Domänen

✦ Weitere allgemein verfügbare Dokumentensammlungen z.B.✦ Wikipedia (sowie verwandte Projekte wie Wikinews)✦ The New York Times Annotated Corpus✦ Medline (Kurzfassungen medizinischer Fachar8kel)

Informa8onsbedürfnisse und Anfragen✦ Informa&onsbedürfnisse und Anfragen als Tes_älle

✦ müssen zur verwendeten Dokumentensammlung passen✦ von Experten oder potenziellen Benutzern definiert✦ für eingesetzte Systeme abgeleitet aus tatsächlichen Anfragen

✦ Beispiel: Topic 426 from TREC 1999

<top><num> Number: 426<title> law enforcement dogs<desc> Description:Provide information on the use of dogs worldwide for law enforcement purposes.<narr> Narrative:Relevant items include specific information on the use of dogs during an operation. Training of dogs and their handlers are also relevant.

</top>

Bewerten der Relevanz von Dokumenten✦ Gütemaße basieren auf Bewertungen darüber ob/wie

relevant ein Dokument zu einem Informa8onsbedürfnis ist

✦ Für welche Dokumente soll man zu einem bes8mmten Informa8onsbedürfnis die Relevanz bewerten lassen?

✦ Wie (z.B. binär) soll die Relevanz bewertet werden?

✦ Wer soll die Relevanz bewerten und wie viele unabhängige Bewertungen benö8gt man für jedes Dokument?

Cranfield-‐Experimente und Pooling✦ In den Cranfield-‐Experimenten während den 1960ern wurden

für jedes Informa&onsbedürfnis alle Dokumente bewertet✦ nur für sehr kleine Dokumentensammlungen prak8kabel✦ einzige Möglichkeit wirklichen Recall zu berechnen

✦ Pooling, als heute gängige Vorgehensweise, mischt für jedes Informa8onsbedürfnis die Top-‐k Ergebnisse verschiedener IR-‐Systeme oder Standard IR-‐Modelle und lässt dann die Relevanz darin enthaltener Dokumente bewerten

✦ auch für sehr große Dokumentensammlungen prak&kabel✦ zuverlässige Evaluierung eines neuen IR-‐Systems nur dann möglich,

wenn die Relevanz aller Top-‐k Ergebnisse bewertet wurde

Art der Relevanzbewertungen✦ Binäre Relevanzbewertungen noch weit verbreitet

✦ 1 : Dokument ist relevant✦ 0 : Dokument ist irrelevant

✦ Abgestude Relevanzbewertungen zunehmend verbreitet z.B.✦ 2 : Dokument ist relevant✦ 1 : Dokument ist teilweise relevant ✦ 0 : Dokument ist irrelevant

✦ Zudem macht es Sinn, den Bewertenden eine Möglichkeit zu geben, keine Relevanzbewertung abzugeben (z.B. wenn sie das Informa8onsbedürfnis oder Dokument nicht verstehen)

Bewertende✦ Relevanzbewertungen können vorgenommen werden von

✦ wenigen hochqualifizierten extra geschulten Bewertenden(gängiger Ansatz in der Industrie und bei Benchmark-‐Ini8a8ven)

✦ wenigen Studenten oder anderen Wissenschadlern(gängiger Ansatz in der akademischen Forschung)

✦ einer großen Zahl von Bewertenden mit unklarer Qualifika&on(zunehmend populärer Ansatz)

✦ Zielkonflikt zwischen Qualifika&on und Verfügbarkeit von Bewertenden – kann z.T. durch redundante Relevanzbewertungen abgeschwächt werden

Crowdsourcing✦ Crowdsourcing = Crowd (Menschenmenge) + Outsourcing

lagert kleine Aufgaben an große Zahl von Teilnehmern aus

✦ Für das erfolgreiche Bearbeiten einer Aufgabe erhält der Teilnehmer i.d.R. eine kleine Vergütung (z.B. 0,05€)

✦ Crowdsourcing wurde erfolgreich angewandt z.B. zum✦ Bes8mmen der korrekten Orien&erung von Fotos✦ Verschlagworten (tagging) von Fotos ✦ Übersetzen und korrigieren kleiner Texte✦ Bewerten der Relevanz von Anfrageergebnissen

✦ Bekannteste Plasorm ist Amazon Mechanical Turk

Crowdsourcing

Kappa Sta8s8k✦ Kappa Sta8s8k misst Übereins&mmung von Bewertenden

✦ P(A) als beobachtete Wahrscheinlichkeit, dass die beiden Bewertenden übereins8mmen

✦ P(E) als Wahrscheinlichkeit, dass die beiden Bewertendenbei zufälliger Bewertung übereins8mmen

κ =P(A)− P(E)

1− P(E)

P(E) = P(R )2 + P(NR )2

Kappa Sta8s8k✦ Beispiel:

P(A) = (300 + 70) / 400 = 0.9250P(R) = (10 + 20 + 300 + 300) / 800 = 0.7875P(NR) = (10 + 20 + 70 + 70) / 800 = 0.2125P(E) = P(R)2 + P(NR)2 = 0.6653 κ = 0.7759

R NR ΣR 300 20 320

NR 10 70 80

Σ 310 90 400Bewertend

er 1 Bewertender 2

Kappa Sta8s8k✦ Interpreta&on der Kappa Sta8s8k

✦ κ > 0.8 deutliche Übereins8mmung✦ 0.8 ≥ κ > 0.67 angemessene Übereins8mmung✦ 0.67 ≥ κ ungeeignet geringe Übereins8mmung

✦ Kappa Sta8s8k kann verallgemeinert werden für Umgang mit✦ mehr als zwei Bewertenden pro Relevanzbewertung✦ abgestu[e Relevanzbewertungen

Evaluierung bei Suchmaschinen✦ Suchmaschinen wenden ebenfalls die beschriebene

Vorgehensweise an, um Ergebnisgüte zu evaluieren✦ Informa8onsbedürfnisse und Anfragen als Tes_älle✦ P@10 und nDCG@10 als gängige Gütemaße und

somit Fokus auf die ersten Ergebnisseite✦ Relevanzbewertungen durch eigens angelernte Bewertende

✦ Darüber hinaus kommen weitere Verfahren/Maße zum Einsatz✦ Klick-‐Rate (clickthrough) auf erstes Ergebnis anstal Bewertungen✦ Benutzerstudien unter Laborbedingungen

(z.B. Beobachtung des Benutzerverhaltens milels Eye-‐Tracking)✦ A/B Tes&ng

A/B Tes8ng✦ Suchmaschinen bearbeiten täglich große Zahl von Anfragen,

haben viele Benutzer und beobachten deren Verhalten

✦ A/B Tes&ng evaluiert gezielt eine Veränderung (z.B. andere Parameterwahl im verwendeten IR-‐Modell), indem es

✦ Großteil der Anfragen (z.B. 99%) mit altem System bearbeitet✦ kleinen Prozentsatz (z.B. 1%) mit geändertem System bearbeitet✦ Veränderung im Verhalten der Benutzer analysiert

(z.B. die Klick-‐Rate für das erste zurückgelieferte Ergebnis)

✦ Vorteile des A/B Tes&ngs sind u.a.✦ authen8sches Benutzerverhalten – keine Bewertungssitua&on✦ universell anwendbar (z.B. visuelle Gestaltung der Ergebnisseite)

5.2 Effizienz eines IR-‐Systems✦ Leistungsfähigkeit eines IR-‐Systems hat mehrere Aspekte z.B.

✦ Indexierungszeit, d.h. wie lange braucht das System, um eine Dokumentensammlung bes8mmter Größe zu indexieren

✦ Durchsatz, d.h. wie viele Anfragen kann das System pro gegebener Zeiteinheit bearbeiten

✦ Antwortzeit, d.h. wie lange benö8gt das System im Milel, um dem Benutzer das Ergebnis zu einer Anfrage zurückzuliefern

✦ Indexgröße, d.h. wie viel Speicherplatz nimmt der vom System verwendete Index in Anspruch

Konkrete und abstrakte Effizienz-‐Maße✦ Zum Messen der verschiedenen Aspekte können entweder

konkrete oder abstrakte Effizienz-‐Maße zum Einsatz kommen

✦ Indexierungszeit (konkret: Stunden)

✦ Durchsatz (konkret: Anfragen/Sekunde)

✦ Antwortzeit (konkret: Millisekunden abstrakt: # gelesener Indexeinträge)

✦ Indexgröße(konkret: Gigabytes abstrakt: # Indexeinträge)

Workload, Cache-‐Effekte und Compiler-‐Effekte✦ Insbesondere beim Messen von Antwortzeiten muss man

darauf achten, Verzerrungen zu vermeiden z.B. aufgrund von

✦ Workload (d.h. zu bearbeitende Anfragen) sollte möglichst repräsenta8v sein, um ein realis8sches Bild zu erhalten

✦ Cache-‐Effekte durch Caches seitens des Betriebssystems oder der verwendeten Hardware (z.B. Festplale)

✦ Compiler-‐Effekte durch sukzessive Op8mierungen des Compilers (z.B. bei den Just-‐In-‐Time Compilern von Java und .NET)

Zusammenfassung✦ Effek&vität (z.B. Wie gut sind die Ergebnisse?)

✦ Gütemaße (Precision & Recall, MAP und nDCG)✦ Benchmark-‐Ini&a&ven (TREC, CLEF und INEX)✦ Relevanzbewertungen (z.B. milels Crowdsourcing)✦ Evaluierung bei Suchmaschinen (z.B. A/B Tes8ng)

✦ Effizienz (z.B. Wie schnell werden Anfragen beantwortet?)✦ Maße des Zeit-‐ und Speicherbedarfs (z.B. Antwortzeit)✦ Konkrete und abstrakte Effizienz-‐Maße✦ Workload, Cache-‐Effekte und Compiler-‐Effekte

Quellen & Literatur[1] Amazon Mechanical Turk http://www.mturk.com[2] Cross Language Evalua8on Forum http://www.clef-campaign.org[3] Ini8a8ve for the Evalua8on of XML Retrieval http://inex.is.informatik.uni-duisburg.de[4] NIST Text REtrieval Conference http://trec.nist.gov[5] O. Alonso, D. E. Rose and B. Stewart: Crowdsourcing for Relevance Evalua*on

ACM SIGIR Forum 42(2), 2008.[6] S. Bülcher, C. L. A. Clake and G. V. Cormack: Informa*on Retrieval,

MIT Press, 2010. (Kapitel 2 + 12)[7] W. B. Cro[, D. Metzler and T. Strohman: Search Engines Addison-‐Wesley, 2010. (Kapitel 8)[8] C. D. Manning, P. Raghavan and H. Schütze: IntroducAon to InformaAon Retrieval, Cambridge University Press, 2008. (Kapitel 8)[9] J. Zobel and A. Moffat: Guidelines for presenta*on and comparison of indexing techniques ACM SIGMOD Record 25(3), 1998.

Information Retrieval (SS 2011) - Evaluierung von...

Documents