Testtheoretische Grundlagen Gütekriterien

transcript

SEMINAR: TESTEN UND ENTSCHEIDEN

DOZENTIN: DR. S. ANDREE

REFERENTIN: L ISA SCHEIDLER

Testtheoretische Grundlagen

Gütekriterien

Übersicht

Einführung Testtheorien Psychologische Tests

Die klassische TesttheorieGütekriterien

Hauptgütekriterien Objektivität Reliabilität Validität

Nebengütekriterien

Einführung3

Klassische Testtheorie

„Messwerte beinhalten den wahren Wert + den Messfehler“

Befasst sich mit unterschiedlichen Bestandteilen von Messwerten

Grundlage für ca. 95 % der psychologischen Testdiagnostik (Stand 1999)

Probabilistische Testtheorie

„Wie hängt das Testverhalten einer oder mehrerer Personen von einem zu erfassenden psychischen Merkmal ab?“

Einführung

Theorien sollen erklären, beschreiben und vorhersagen

Probabilistische Testtheorie:Das zugrundeliegende Testmodell erklärt systematische

Zusammenhänge zwischen den Reaktionen des Probanden und spezifischen Testaufgaben mithilfe von latenten Personenvariablen.

Latente vs. manifeste/ beobachtbare Variablen ?

Latente vs. Manifeste Variablen

Latente Variablen verborgen, nicht sichtbar können auch Dimensionen oder Konstrukte sein(z.B. IQ,

Extraversion…) nicht direkt beobachtbar, mit Hilfe

beobachtbarer/manifester Variablen , bzw. Items messbarManifeste Variablen

Items sind die beobachtbaren Indikatoren von latenten Variablen

Items finden sich als Aufgaben/Fragen in Tests systematische Zusammenhänge zwischen Itemantworten

( ergeben letztlich latente Variablen)

KTT Probabilistische TT (IRT)

Testergebnis entspricht direkt dem Ausprägungsgrad des gemessenen Merkmals.

Problemstellung: Ermitteln des Wertes

für Messfehler, um auf den wahren Wert schließen zu können.

Annahme von Zusammenhang zw. Merkmalsausprägung & Testergebnis kann unterschiedlich sein (WSK- Aussagen)

Problemstellung: Testebene (Items, manifeste V.)

liefert Indikator (meist Funktionen) für Veränderungen auf Merkmalsebene (latente V.)

Klassische vs. Probabilistische Testtheorie

Einführung

Was erfassen psychologische Tests? Fähigkeiten Persönlichkeitsmerkmale Psychische Eigenschaften Psychologische Konstrukte (latente Variablen)

„Tests“: …auch: Fragebögen, standard. Interviews/ Beobachtungen,… …sind Verfahren, die nicht durch die getestete Person

verfälscht werden können

Einführung

Gibt es den „unverfälschten“ Test?Wodurch werden Tests verfälscht?z.B.:

Soziale Erwünschtheit Motivation Testangst Wahrgenommener Zeitdrück Aufmerksamkeit/Tagesform Unterschungsdauer Vorkenntnisse, z.B. über Test Absichtliche Verfälschungen …

Klassische Testtheorie (KTT)

Axiome: 1. Jedes beobachtbare Testergebnis einer Person p im Test t

setzt sich additiv zusammen aus dem „wahren Wert“ und einem Fehlerwert.

2. Der (bei häufiger Messung) erwartete Mittelwert des Fehlers ist 0.

3. Die Größe des Messfehlers ist unabhängig vom wahren Ausprägungsgrad des getesteten Merkmals.

4. Die Messfehler verschiedener Testanwendungen sind voneinander unabhängig.

Ziel der KTT: zeitstabile Merkmale möglichst unverzerrt Erfassen Zu testende Person ist zufällig einer Population

entnommen Testergebnis variiert zufällig (unsystematische

Einflüsse, wie Müdigkeit, werden durch Messfehler heraus gerechnet)

Personen erhalten zu unterschiedlichen Zeitpunkten unterschiedliche Werte

Hypothetische Verteilung entsteht aus unendlich vielen Testungen Annäherung an wahren Mittelwert und Normalverteilung

Wahrer Wert (T) Per Definition der Mittelwert einer hypothetischen

Verteilung ( Ergebnis einer perfekten, fiktiven Messung ohne Verzerrungen etc.)

Nicht beobachtbar, zeitlich stabil

Beobachteter Messwert (X) Tatsächlich gemessener Wert, Ergebnis einer

Datenerhebung Verknüpfungsaxiom: X= T+E Beobachteter Messwert= wahrer Wert T + Messfehler E

Messfehler (E)

Alle unkontrollierbaren und unsystematischen Einflüsse, die den beobachteten Wert vom wahren Wert abweichen lassen.

E= X – T Messfehler ergibt sich aus der Differenz von

beobachtetem Messwert X und wahrem Wert T einer Person

Kritik Grundannahmen sind Axiome, empirisch nicht

überprüfbar Konzept des individuell konstanten wahren Wertes ist

nur für bestimmte Merkmale haltbar KTT verlangt Werte, die metrischen Skalen zugrunde

liegen (keine Ränge etc.) Berücksichtigt nur Gesamtpopulation, keine

Unterpopulationen

KTT hat sich in der praktischen Anwendung bewährt

Gütekriterien

Hauptgütekriterien

Objektivität Durchführung Auswertung Interpretation

Reliabilität Retest-Reliabilität Paralleltestreliabilität Innere Konsistenz

• Validitäto Inhaltsvaliditäto Konstruktvaliditäto Kriteriumsvalidität

Objektivität

Grundvoraussetzung wissenschaftlicher Messungen /Erhebungen

Die Messung ist unabhängig von bewussten oder unbewussten Einflüssen Des Testleiters Der Ergebnispräsentation

Reliabilität

Zuverlässigkeit: Grad der Genauigkeit, mit der ein Test ein bestimmtes Merkmal misst

Unabhängig davon, ob er dieses Merkmal beabsichtigt zu messen

Wird überprüft durch die Reproduzierbarkeit von Messergebnissen

Arten von Wiederholungsmessungen: Paralleltest, Test-Retest, Testhalbierung (split-half)

Man kann immer wieder den selben Fehler machen. Die Ergebnisse sind dann zwar reliabel, aber nicht gültig (valide).!

Validität

Misst der Test wirklich, was er wirklich messen soll?

Gültigkeit des Tests entscheidet, ob eine Generalisierbarkeit der Testergebnisse auf Verhalten außerhalb der Testsituation getätigt werden kann!

Gültigkeit von Testergebnissen in der wahren Welt kann nur mit ausreichend Validität erreicht werden.

Gruppenarbeit

Hauptgütekriterien Objektivität

Durchführung Auswertung Interpretation

Reliabilität Retest-Reliabilität Paralleltestreliabilität Innere Konsistenz

• Validitäto Inhaltsvaliditäto Konstruktvaliditäto Kriteriumsvalidität

Aufgaben:

1. Kann Validität ohne Reliabilität entstehen?

2. Wie kann man dem Gütekriterium in der Praxis gerecht werden (Objektivität, Reliabilität oder Validität) ?Welche Probleme können auftreten? Beispiele?

Ca. 10 Min Zeit

Gütekriterien

Kann Validität ohne Reliabilität entstehen?

Objektivität = notwendig, aber nicht hinreichend für

Reliabilität

= notwendig, aber nicht hinreichend für

Validität

Objektivität

Durchführungsobjektivität Unabhängigkeit der Messung vom Versuchsleiter, Interviewer,

usw. während der Durchführung

Wie kann dies realisiert werden? Max. Standardisierung der Testsituation: schriftliche

Anweisungen, standardisierte Frage- und Antwortmöglichkeiten

Min. soziale Interaktion: Verbot eigener Formulierungen durch Interviewer, keine abweichenden Inhalte

„blinder Versuchsleiter“ –nicht in Zielsetzung eingeweiht Merkmale des Versuchsleiters haben ebenfalls Einfluss: z.B.

Attraktivität, Seriosität, Stimmlage, Dialekt, etc. (Brosius et al., 2012)

Objektivität

Auswertungsobjektivität Unabhängigkeit vom Testauswerter bei der Auswertung des

Tests egal welcher Auswerter den Test bearbeitet hat, der Proband

erhält immer 102 Punkte im IQ- Test

Wie kann dies realisiert werden? Eindeutige Operationalisierung Standardisierte Messverfahren und einheitliche Skalen (z.B.

durch Multiple-Choice) Standardisierte Kategorien und Regeln bei der Auswertung

offener Antwortmöglichkeiten Statistische Überprüfung der Übereinstimmung mehrerer

Beurteiler möglich durch bestimmte Kennzahlen (z.B. „W“)

Objektivität

Interpretationsobjektivität Unabhängigkeit vom Testanwender bei der Interpretation

der Ergebnisse

Wie kann dies realisiert werden? Bewertung von Testergebnissen erfolgt anhand vorher

festgelegten oder analytisch ermittelten Regeln / Kategorien Proband mit 131 Punkten im IQ- Test wird laut Konvention

als „Hochbegabt“ eingestuft ( IQ>130) Einheitliche Festlegung, welche Testwerte welche Schlüsse

nach sich ziehen Arbeit mit Testmanual zentral Angabe einer Normentabelle aus einer Eichstichprobe

Zur Einschätzung der Aussagekraft des Testergebnisses

Reliabilität

Retest- Reliabilität Die selbe Stichprobe absolviert den selben Test mit

z.B. 8 Wochen Abstand Korrelation der Messwerte zu Zeitpunkt 1 und 2 Reliabilität gegeben, wenn sich das zu messende

Merkmal nicht verändert hatProbleme:

Übungseffekte Erinnerungseffekte Zeitliche Stabilität der Merkmale Zeitökonomie

Reliabilität

Paralleltestreliabilität

Korrellation zwischen beobachteten Messerwerten zweier paralleler Tests

Items sind dabei nicht identisch, besitzen aber die gleichen Mittelwerte, Streuungen und Differenzen (Itemanalyse nötig)

Problem: eine sehr große Auswahl an Items wird benötigt um mittels Analyse geeignete Paare zu finden; dabei können Lerneffekte nicht ausgeschlossen werden

Reliabilität

Innere Konsistenz Generalisierte Testhalbierungsmethode Jedes Item eines Tests wird als eigener Teil betrachtet Alle Teile werden korreliert- je stärker die Korrelation,

desto größer die Innere Konsistenz Cronbachs α gibt an, wie genau die Items eines Tests ein

Konstrukt messen Konventionen:> 0,9 exzellent > 0,8 gut > 0,7 akzeptabel >0,6 fragwürdig > 0,5 schlecht

Validität

Inhaltsvalidität Vpn repräsentiert das zu erfassende Merkmal

tatsächlich inhaltlich z.B. gutes Ergebnis in Rechtschreibtest- tatsächlich gute

Rechtschreibleistung Überprüfung z.B. durch Experten

Testitems stellen eine inhaltlich repräsentative Stichprobe bezüglich des zu erfassenden Merkmals dar Schwierig, da: keine numerischen Maße/ Kennwerte zur

Beurteilung einer repräsentativen Menge

Validität

Konstruktvalidität Durch quantifizierbare Methoden wird überprüft, ob

der Test das misst, was er messen soll z.B. durch Faktorenanalyse: Überprüfung der Passung

von Items zu vorher festgelegten Faktoren (entsprechen psychologischen Konstrukten o.ä.)

Struktursuchende Konstruktvalidität Konvergente Validität: Vergleich eines Tests mit einem

ähnlichen, aber etablierten Test Diskriminante Validität: Test ist abgrenzbar von anderen

– Konzentrationstest soll nur Konzentration und nicht

zusätzlich Intelligenz messen

Validität

Kriteriumsvalidität Testergebnisse sagen erfolgreich das Verhalten

außerhalb der Testsituation voraus z.B. Schuleignungstest sagt tatsächlich spätere

Schulleistung vorher ermittelt durch Korrelation zwischen Testvariable und

Kriteriumsvariable Arten von Kriteriumsvalidität:

Vorhersagevalidität Retrospektive Validität: Korrelation mit zurückliegenden

Kriterien Inkrementelle Validität: Beitrag eines Tests zur Vorhersage

eines Kriteriums

Gütekriterien

Bsp. : BET- „Büroklammern-Entwirr-Test zur Messung der Intelligenz“ (Diekmann,2007) 100 Büroklammern miteinander verknüpft; in 5 Minuten entwirren. Score = Anzahl der entwirrten Klammern Eine Person ist umso intelligenter , je größer ihr BET

Gütekriterien Objektiv Reliabel Valide

Gütekriterien

Nebengütekriterien

Skalierung Normierung Testökonomie Zumutbarkeit Unverfälschbarkeit Fairness

Nebengütekriterien

Skalierung Die empirischen Merkmalsrelationen werden adäquat

abgebildet mittels der erhobenen Testdaten. Skalenniveau ist entscheidend z.B. lassen nur metrische Skalen Aussagen über

Differenzen & Verhältnisse zu

Nebengütekriterien

Normierung Bezugssystem, um die Ergebnisse einer Person zu den

Merkmalsausprägungen anderer Personen einzuordnen und zu interpretieren Vergleichswerte entstehen durch Eichstichprobe, bzw.

Normtabellen Eichstichprobe muss repräsentativ für die

interessierende Personengruppe sein Prozentrangnormen Standardnormen

Nebengütekriterien

Testökonomie – Wirtschaftlichkeit des Tests Erkenntnisgewinn und beanspruchte Ressourcen (z.B.

Zeit, Geld,…) eines Tests müssen in einem guten Verhältnis stehen

Finanzieller Aufwand Testmaterial, Software, Arbeitszeit,..

Zeitlicher Aufwand Vorbereitung, Durchführung, Auswertung, Rückmeldung,

Konflikt mit anderen Gütekriterien: neuartige, valide Tests mit hohem Erkenntnisgewinn rechtfertigen höhere Kosten

Nebengütekriterien

Zumutbarkeit

Der Proband darf zeitlich, körperlich und psychisch nicht übermäßig belastet werden (im Verhältnis zum Erkenntnisgewinn gesehen).

Betrifft ausschließlich Testpersonen Nutzen des Tests und damit die Zumutbarkeit teilweise

schwer einzuschätzen

Nebengütekriterien

Unverfälschbarkeit

Das Verfahren sollte so konstruiert sein, dass der Proband seine Testergebnisse nicht durch gezielte Reaktionen/ Antworten beeinflussen kann. Problematisch bei Persönlichkeitsfragebögen, wo das

Prinzip schnell durchschaut werden kann (z.B. aufgrund von sozialer Erwünschtheit)

Bei Leistungstests meist gegeben

Nebengütekriterien

Fairness

Testergebnisse führen zu keiner Benachteiligung von Personen aufgrund ihrer Zugehörigkeit zu ethnischen, soziokulturellen oder geschlechtsspezifischen Gruppen z.B. Culture- fair- Tests: Personen müssen über keine

hohen sprachlichen oder anderen kulturabhängigen Fähigkeiten verfügen um den Test zu verstehen/ zu lösen.

Literatur

Bühner, M. (2006). Einführung in die Test- und Fragebogenkonstruktion. München: Pearson Studium.

Diekmann, A. (2007). Empirische Sozialforschung. Grundlagen, Methoden, Anwendungen. Hamburg: Rowohlt-Taschenbuch-Verlag.

Fisseni, H.J. (1990). Lehrbuch der psychologischen Diagnostik. Göttingen: Hogrefe- Verlag.

Moosbrugger, H., Kelava, A. (2007) Testtheorie und Fragebogenkonstruktion. Berlin: Springer.

Internet: http://www.uni-bielefeld.de/stud/fpsycho/downloads/Skripte/markus2000.pdf (Zugriff:01.05.2014)

Testtheoretische Grundlagen Gütekriterien

Documents