Fakultaumlt fuumlr PhysikInstitut fuumlr Experimentelle Kernphysik
wwwkiteduKIT ndash Die Forschungsuniversitaumlt in der Helmholtz-Gemeinschaft
Guumlnter Quast WS 1718
Vorlesung
Rechnernutzung in der Physik
VL 12b Testen von Hypothesen
Entscheidungsfindung mit Statistik
Gibt es einen Unterschied bei Pruumlfungsergebnisse verschiedener Gruppen (Geschlecht Jahrgang Studienfach Dozent Kurskonzept hellip)
Wirkt ein Medikament
Soll ich morgen einen Regenschirm mitnehmen
Soll ich Aktien der Firma KleinWeich kaufen
Gibt es in den Daten eines Experiments einen Hinweis auf einen neuen Effekt (kalte Fusion Higgs-Boson Supersymmetrie hellip)
Biete ich Kunden die rote Schuhe kaufen lieber gruumlne oder rote Huumlte an
Ist der Online-Kunde ein potenzieller Betruumlger
hellip
Das Ziel einer jeden Datenanlyse ist die Beantwortung von Fragen und das Treffen von Entscheidungen
ganz allgemein Hypothesentest Vergleich von (empirischen) Daten mit verschiedenen Hypothesen Hi
Beispiel Verursacht Rauchen Lungenkrebs
25 Personengruppen Rauchindex 100 wenn Zahl
der Zigaretten pro Tag dem Durchschnitt von allen Maumlnnern desselben Alters entspricht
Lungenkrebs-Index 100 wenn Zahl der Lungenkrebstoten dem Durchschnitt entspricht
Korrelations-Koeffizient 0716
Frage Kann bdquoNull-Hypotheseldquo H
0 (=kein
Zusammenhang) verworfen werden
Beispiel 2 Entdeckung des Higgs-Bosons
Haumlufigkeitsverteilung der Massen von vier MyonenFrage Ist das eingezeichnete (rote) Signal statistisch signifikant
zwischen 1215 und 1305 GeV ndash 9 Ereignisse beobachtet ndash ohne Signal ~3 erwartet
Frage Mit welcher Wahrscheinlichkeit wuumlrden bei einer Erwartung von 3 Ereignissen tatsaumlchlich 9 oder mehr beobachtet
Ist diese Wahrscheinlichkeit bdquokleinldquo (kleiner als eine vor der Messung festgelegte Grenze) so handelt es sich um ein bdquoneues Signalldquo
CMS Experiment Juli 2012
Hypothesentest
Hypothese formuliert als PDF einer Zufallsvariablen x Einfache Hypothese
spezifiziert Wahrscheinlichkeitsdichte vollstaumlndig
PDF f (x | H (λi) ) alle λi bekannt zB bdquoDaten folgen einer Poisson-Verteilung mit ν=35ldquo
Zusammengesetzte Hypothese spezifiziert WD bis auf einige aus den Daten zu bestimmende Parameter
PDF f (x | H ( λi Θj ) ) λi bekannt Θj aus Daten bestimmt
zB bdquoDaten folgen einer Gauszligverteilung mit bekanntem Mittelwert aber unbekannter Standardabweichung
= Vergleich einer Stichprobe aus Daten mit mehreren Hypothesen Hi
Hypothesentest Prinzip
Zu testende Hypothese Null-Hypothese H0
( bdquoAlles beim Altenldquo bdquoStandardmodellldquo)
Andere Hypothesen Alternativhypothese(n) H
1 H
2 hellip
(zB Abweichung von der Norm neuer Effekt hellip )
fuumlr konkreten Test muss diese explizit formuliert werden ndash bdquoDaten folgen einer Poisson-Verteilung mit ν=30ldquo (nicht 35) ndash bdquoMeszligwerte folgen einer Poisson-Verteilung mit ν lt 70 ndash bdquoMeszligwerte folgen einer Gauszligverteilung mit μ=1ldquo (nicht 0) ndash bdquoDaten sind nicht Poisson-verteiltldquo (schwieriger da unendlich viele Alternativen moumlglich sind)
Typisches Ergebnis
Verwerfen einer oder mehrerer Hypothesen
aber Null-Hypothese kann nie bewiesen werden denn es koumlnnte eine (geringfuumlgig) bessere Alternative geben
Hypothesentest Pruumlfgroumlszlige
Startpunkt zufaumlllige Stichprobe x = ( x1 hellip xn )
Schritt 1 Definition einer Pruumlfgroumlszlige t(x) (engl bdquotest statisticldquo) zur bestmoumlglichen Unterscheidung der Hypothesen Hi
ndash t(x) im Prinzip bel Funktion von x zB Mittelwert Likelihood L( Hi | x)
ndash idealerweise ist t(x) eine skalare Groumlszlige
t(x) ist Zufallsvariable mit Wahrscheinlichkeitsdichten g(t| Hi)
Hypothesentest Signifikanzniveau
Schritt 2 Festlegung eines Kriteriums zum Verwerfen der Nullhypothese (vor der Messung) kritischer Wert t0
α Signifikanzniveau
Bedeutung Auch wenn H0 gilt ist im Bruchteil α aller Faumllle t gt t0
Hypothesentest Messung
Schritt 3 Messung liefert t = t1
Berechnung des p-Werts = Wahrscheinlicheit fuumlr t ge t1
Schritt 4 Entscheidung Nullhypothese verwerfen falls p-Wert lt α
In diesem Beispiel Nullhypothese wird nicht verworfen weil p gt α
Hypothesentest Fehlertypen
Fehler 1 Art wahre Nullhypothese wird verworfen Flaumlche α
Fehler 2 Art falsche Nullhypothese wird akzeptiert Flaumlche β
Beispiele Fehler 1 Art (auch bdquofalse positiveldquo) ndash Krankheit bei Gesundem diagnostiziert ndash falsche Entdeckung eines neuen Teilchens ndash ehrlichen Kunden als potentiellen Betruumlger eingestuft
Beispiele Fehler 2 Art (auch bdquofalse negativeldquo) ndash echte Krankheit nicht erkannt ndash neuen Teilchens nicht gefunden obwohl in Daten vorhanden ndash Betruumlger nicht erkannt und Ware auf Rechnung ausgeliefert
Wahl des Signifkanzniveaus haumlngt auch davon ab welcher Fehler als schlimmer erachtet wird ndash Wiss Ruhm vs Laumlcherlichkeit ndash falsche vs unterlassene Behandlung ndash Kunde oder Ware verloren
1-β nennt man dieTeststaumlrke gebr auch Trennschaumlrfe Maumlchtigkeit (engl power)
Hypothesentest Signifikanz und p-Wert
Haumlufige Missverstaumlndnisse
p-Wert ist nicht die Wahrscheinlichkeit dass die Null-Hypohthese wahroder falsch ist
p-Wert ist auch nicht die Wahrscheinlichkeit dass Messung bdquonur eine Fluktuationldquo ist
Unterscheidung Signifikanz und p-Wert
α = Wahrscheinlichkeit fuumlr Fehler 1 Art (festgelegt vor der Messung )
p = Wahrscheinlichkeit dass Werte fuumlr die Pruumlfgroumlszlige t ge t1 gemessen wuumlrden wenn die Nullhypothese wahr ist (nach der Messung von t1 )
xkcdcom
Es ist nicht unuumlblich mit nochviel kleineren Signifkanzniveaus zu arbeiten zB Teilchenphysik ~10-7
bdquoExtraordinary Claims require Extraordinary Signifcanceldquo
Beispiel Muumlnzwurf
Sie haben nach 20-maligem Wurf einer Muumlnze 15 mal Kopf und 5 mal Zahl erhalten Wie kompatibel ist die Hypothese mit diesem Ausgang der Meszligreihe
Grundlage fuumlr die statistische Analyse ist die Binomialverteilung
Berechnung des p-Werts als Summe der Wahrscheinlichkeiten fuumlr das Auftreten von Werten k ge15 mit p=05
aber AchtungBei einer Muumlnze ist eine sehr valide Annahme Uumlberlegen Sie sich genau wann sie diese Hypothese ins Wanken bringen moumlchten
bei einem Signifikanz-Niveau von α=5 wuumlrde man also die Hypothese dass die Muumlnze in Ordnung ist verwerfen
bei eine Signifikanzniveau von α=1 waumlre sie noch akzeptabel
Beispiel2 Binomial mit bdquoUntergrundldquo
Ist eine medizinische Behandlung effektiv
60 bdquospontane Heilungldquo 100 Patienten behandelt rarr
Nullhypothese (nur) le60 der Patienten geheilt (also keine positive Wirkung der Behandlung)
Alternative die Behandlung wirkt
Pruumlfgroumlszlige Zahl der geheilten Patienten
Entscheidung uumlber Wirksamkeit mit 5 Signifikanz
Grundlage ist wieder die Binomial-Verteilung
rarr
mehr als 60 + 164 49 Patienten = 69 Patienten muumlssten geheilt werden um die Wirksamkeit (statistisch) zu belegen
Zahlen sind bdquogroszligldquo erlaube mir eine Gauszligsche Naumlherung
einseitiges 5-Quantil der Gauszlig-Verteilung liegt bei μ+164 σ
kennen wir schon χsup2 - Test
Die χ2-Wahrscheinlichkeit
dient zur Quantifizierung der Qualitaumlt einer Anpassung
Aussage mit welcher Wahrscheinlichkeit ein groumlszligerer Wert von χ2 am Minimum als der tatsaumlchlich beobachtete zu erwarten waumlre
Smin die bdquogewichtete Summe der Residuenquadrateldquo am Minimum bzgl der Parameter p folgt bei Gauszlig-foumlrmig verteilten Fehlern σi
einer χ2-Verteilung mit nf = N-k Freiheitsgraden Erwartungswert ltχ2gt=nf oder ltχ2 nf gt = 1
N Messungenk Parameter
Beispiel χsup2 ndash Test auf Unabhaumlngigkeit Sind die Variablen x und y unabhaumlngig Erinnerung
fuumlr unabhaumlngige Variable ist die Verteilung f(xy) gegeben durch das Produkt der Randverteilungen
f(xy) = fx(x) middot fy(y)
Im Fall eines 2-dimensionalen Histogramms Randverteilungen sind die Histogramme von x u y
Daraus laumlsst sich ein
Test auf Unabhaumlngigkeit konstruieren
Nullhypothese
folgt unter Annahme der Nullhypothese einer χsup2-Verteilung mit Ntot ndash bx ndash by Freiheitsgraden bxy Zahl der Bins in x und y
rarr p-value of chi2-independence test 21
x und y sind also wohl nicht unabhaumlngig Script Histogrampy bzw PhyPraKitpy
Qualitaumlt der Anpassung aus Likelihood
⊖ Likelihood-Methode zur Parameteranpassung liefert zunaumlchst keine Information zur Qualitaumlt einer Anpassung
Beispiel Likelihood der Gauszligverteilung
Referenz
χ2 o
bdquofully saturated modelldquo
in fruumlheren Diskussionen hatten wir diesen Term auf andere Art zu Null diskutiert ( bdquohaumlngt ja gar nicht von den Parametern ab -kann man also weglassenldquo )
Durch geeignete bdquoNormierungldquo kann Qualitaumltsinformation auch aus der Likelihood gewonnen werden Likelihood-Verhaumlltnis
der beobachteten Daten und (geeigneter) Referenzdaten
Qualitaumlt der Anpassung binned Likelihood-Fit
Beispiel 2 Likelihood der Poisson-Verteilung
Referenz
gof = goodness of fit
Auf analoge Weise lassen sich (effiziente) Pruumlfgroumlszligen auf Basis des Likelihood-Verhaumlltnisses auch fuumlr andere Verteilungen generieren
gofPoisson
konvergiert fuumlr groszlige N t gegen χsup2 2
Script gof-testpy
Mittelwert einer Stichprobe als Pruumlfgroumlszlige
n bdquostandard-normalverteilteldquo Zufallszahlen mit Mittelwert
wenn nicht bekannt ist nutzt man die Stichprobenvarianz
die normierte Groumlszlige folgt dann nicht der Gauszligverteilung
sondern der Studentschen t-Verteilung fuumlr n-1 Freiheitsgrade
insbesondere fuumlr kleine n viel groumlszligere Auslaumlufer als Gauszlig-Verteilung
Mittelwert einer Stichprobe als Pruumlfgroumlszlige rarr t-Verteilung verwenden
Studentsche t-Verteilung
1908 vom Guiness-Mitarbeiter WS Gossetunter dem PseudonymbdquoStudentldquo veroumlffentlicht
erste Anwendung Qualitaumltssicherung bei Bier der Marke Guinness
Anwendung Studentsche t-Verteilung
Haumlufige Fragestellung haben zwei unabhaumlngige Grundgesamtheiten (mit der gleichen Varianz) den selben Mittelwert
Nullhypothese x1 = x2 t-verteilte Pruumlfgroumlszlige mit nf = n1 + n2 ndash 2 Freiheitsgraden
mit
Wie vertraumlglich sind die Mittelwerte der (Noten-)Verteilungen
Studentscher t-Test t = 089 p -Wert aus t-Verteilung p = 37 Nullhypothese wird nicht verworfen
d h Unterschied nicht signifikant
Script t-testpy
Einseitiger oder zweiseitiger Test
Nullhypothese x1 = x2
Nullhypothese x1 nicht groumlszliger x2
Nullhypothese x2 nicht groumlszliger x1
kritische Region symmetrisch
Die bdquokritische Regionldquo zum Verwerfen der Null-Hypothese haumlngt von der Null-Hypothese selbst ab
kritische Region rechts (rechtsseitiger Test)
kritische Region links (linksseitiger Test)
Wird verworfen wenn mit hoher Signifikanz x1 gt x2 oder x2 gt x1
verwerfen wenn mit hoher Signifikanz x2 gt x1
verwerfen wenn mit hoher Signifikanz x1 gt x2
weitere Testverfahren
Welch-Test als Alternative zum Studentschen t-Test
zum Vergleich empirischer Daten auf gleichen Mittelwert bei ungleichen Varianzen der Stichproben
Kolmogorov-Smirnov-Test
zum Vergleich empirischer Daten mit vorgegebener Verteilungsfunktion zB sind die Daten Gauszlig-verteilt
Alternativen Anderson-Darling- oder Cramer-von Mises-Test
F-Test
auf gleiche Varianz von Stichproben
allg Testverfahren die auf dem Likelihood-Verhaumlltnis
beruhen
Optimale Wahl der Pruumlfgroumlszlige
Neyman ndash Pearson Lemma Bester Test fuumlr einfache Hypothesen
aumlquivalent
Problem exakte Likelihood oft unbekannt Moumlglichkeiten ndash (plausiblen) Ansatz fuumlr funktionale Form verwenden
ndash Monte Carlo ndash Simulation
Im Grenzfall groszliger Stichproben gibt es asymptotische Verteilungen fuumlr r(x) auch fuumlr zusammengesetzte Hypothesen (also mit
freien aus den Daten zu bestimmenden Parametern) (Wilkssches Theorem)
Klassifizierungsprobleme in hochdimen- sionalen Variablenraumlumen sind haumlufig
ndash ist der Buchstabe ein bdquoaldquo
ndash ist das Teilchen ein Elektron oder Myon
ndash ist der Kunde ein potentieller Betruumlger
ndash Signal oder Untergrund
ndash ist die E-Mail Spam
- hellip
Ausblick Klassifizierung als Hypothesentest
Gehoumlrt ein Ereignis zu einer von zwei oder mehreren Klassen ndash Zufallsereignis beschrieben durch n Zufallsvariable x1 hellip xn
ndash Klasse k beschrieben durch PDF fk(x1 hellip xn)
x
Gehoumlrt Punkt x zu Klasse 0 oder 1 Typische bdquoMVAldquo-Methoden zur Behandlung
allg Methoden des bdquoMachine Learningldquo ndash kuumlnstliche neuronale Netze ndash verstaumlrkte Entscheidungsbaumlume ndash Support-Vektoren ndash hellip (s VL Datenanalyse im Master)
x1
x2
Suche nach neuen Phaumlnomenen
Auch die Suche nach neuen Phaumlnomenen zB in der (Teilchen-)Physik ist ein HypothesentestFrage Ist Beobachtung vertraumlglich mit der bekannten Physik
- wenn ja Ausschlussgrenze auf neues Phaumlnomen bestimmen (geht nur wenn die Alternativhypothese genau festgelegt ist ndash Aufg der Theor Physik)
- wenn nein Signifikanz der Abweichung spezifizieren (als p-Wert)
Haumlufig fuumlhrt man bdquoZaumlhlexperimenteldquo zur Suche nach einem neuen Signal durch - relevant fuumlr die Beobachtung von n Ereignissen ist die Poisson-Verteilung
Nullhypothese μ = μ0
Alternative μ = μ0 + μ1 μ1 Beitrag durch neuen Effekt
Messung Beobachtung von nobs Ereignissen aufteilen in (erwarteten) Untergrund b = μ0 und Signal s = nobs ndash bp-Wert Wahrscheinlichkeit n ge nobs falls Nullpyhothese wahr
Beispiel Entdeckung des Higgs-Bosons
Bestimmung von Grenzen aus p-Werten
Untergrundhypothese Signalhypothese
Uumlbliche Art der Darstellung Signalgroumlszlige s den man mit Signifikanzniveau von 95 ausschlieszligen kann
b muss sehr gut bekannt modelliert seinwenn man den bdquoNormalfallldquo nicht kennt kann man nicht nach Abweichungen suchen
erhaltenes Limit fuumlr130 GeV
Haumlufigkeit
erwarteter Ausschluss
Beispiel Suche nach dem Higgs-Boson am LHC Stand 2011 Hypothesentest fuumlr
verschiedene H-Massen
Higgs-Entdeckung am LHCfrac12 Jahr spaumlter 4 Juli 2012 Klare Hinweise auf die Existenz eines Higgs-Bosons
Ereignisuumlberschuss in ZZ und γγ bei ATLAS und CMS
H rarr ZZ H rarr ZZ H rarr γγ H rarr γγ
Higgs-Entdeckung statistische Analyse
Bestimmung der Signalsignifikanz durch Vergleich mit der Untergrund-Hypothese und Bestimmung des bdquolokalen p-Wertsldquo SATLAS = 59 σ () (publizierte Ergebnisse) SCMS = 50σ ()
Zeitliche Entwicklung der Signal-Signifikanz Vorlaumlufige Ergebnisse vom 4 Juli 2012 der ATLAS-Kollaboration am LHC
Signal-Signifikanz vorlaumlufige Ergebnisse vom 4 Juli 2012 der CMS-Kollaboration am LHC
() Im Jargon der Teilchenphysiker entspricht die Angabe n σ dem entsprechenden Quantil der Gauszligverteilung
Entscheidungsfindung mit Statistik
Gibt es einen Unterschied bei Pruumlfungsergebnisse verschiedener Gruppen (Geschlecht Jahrgang Studienfach Dozent Kurskonzept hellip)
Wirkt ein Medikament
Soll ich morgen einen Regenschirm mitnehmen
Soll ich Aktien der Firma KleinWeich kaufen
Gibt es in den Daten eines Experiments einen Hinweis auf einen neuen Effekt (kalte Fusion Higgs-Boson Supersymmetrie hellip)
Biete ich Kunden die rote Schuhe kaufen lieber gruumlne oder rote Huumlte an
Ist der Online-Kunde ein potenzieller Betruumlger
hellip
Das Ziel einer jeden Datenanlyse ist die Beantwortung von Fragen und das Treffen von Entscheidungen
ganz allgemein Hypothesentest Vergleich von (empirischen) Daten mit verschiedenen Hypothesen Hi
Beispiel Verursacht Rauchen Lungenkrebs
25 Personengruppen Rauchindex 100 wenn Zahl
der Zigaretten pro Tag dem Durchschnitt von allen Maumlnnern desselben Alters entspricht
Lungenkrebs-Index 100 wenn Zahl der Lungenkrebstoten dem Durchschnitt entspricht
Korrelations-Koeffizient 0716
Frage Kann bdquoNull-Hypotheseldquo H
0 (=kein
Zusammenhang) verworfen werden
Beispiel 2 Entdeckung des Higgs-Bosons
Haumlufigkeitsverteilung der Massen von vier MyonenFrage Ist das eingezeichnete (rote) Signal statistisch signifikant
zwischen 1215 und 1305 GeV ndash 9 Ereignisse beobachtet ndash ohne Signal ~3 erwartet
Frage Mit welcher Wahrscheinlichkeit wuumlrden bei einer Erwartung von 3 Ereignissen tatsaumlchlich 9 oder mehr beobachtet
Ist diese Wahrscheinlichkeit bdquokleinldquo (kleiner als eine vor der Messung festgelegte Grenze) so handelt es sich um ein bdquoneues Signalldquo
CMS Experiment Juli 2012
Hypothesentest
Hypothese formuliert als PDF einer Zufallsvariablen x Einfache Hypothese
spezifiziert Wahrscheinlichkeitsdichte vollstaumlndig
PDF f (x | H (λi) ) alle λi bekannt zB bdquoDaten folgen einer Poisson-Verteilung mit ν=35ldquo
Zusammengesetzte Hypothese spezifiziert WD bis auf einige aus den Daten zu bestimmende Parameter
PDF f (x | H ( λi Θj ) ) λi bekannt Θj aus Daten bestimmt
zB bdquoDaten folgen einer Gauszligverteilung mit bekanntem Mittelwert aber unbekannter Standardabweichung
= Vergleich einer Stichprobe aus Daten mit mehreren Hypothesen Hi
Hypothesentest Prinzip
Zu testende Hypothese Null-Hypothese H0
( bdquoAlles beim Altenldquo bdquoStandardmodellldquo)
Andere Hypothesen Alternativhypothese(n) H
1 H
2 hellip
(zB Abweichung von der Norm neuer Effekt hellip )
fuumlr konkreten Test muss diese explizit formuliert werden ndash bdquoDaten folgen einer Poisson-Verteilung mit ν=30ldquo (nicht 35) ndash bdquoMeszligwerte folgen einer Poisson-Verteilung mit ν lt 70 ndash bdquoMeszligwerte folgen einer Gauszligverteilung mit μ=1ldquo (nicht 0) ndash bdquoDaten sind nicht Poisson-verteiltldquo (schwieriger da unendlich viele Alternativen moumlglich sind)
Typisches Ergebnis
Verwerfen einer oder mehrerer Hypothesen
aber Null-Hypothese kann nie bewiesen werden denn es koumlnnte eine (geringfuumlgig) bessere Alternative geben
Hypothesentest Pruumlfgroumlszlige
Startpunkt zufaumlllige Stichprobe x = ( x1 hellip xn )
Schritt 1 Definition einer Pruumlfgroumlszlige t(x) (engl bdquotest statisticldquo) zur bestmoumlglichen Unterscheidung der Hypothesen Hi
ndash t(x) im Prinzip bel Funktion von x zB Mittelwert Likelihood L( Hi | x)
ndash idealerweise ist t(x) eine skalare Groumlszlige
t(x) ist Zufallsvariable mit Wahrscheinlichkeitsdichten g(t| Hi)
Hypothesentest Signifikanzniveau
Schritt 2 Festlegung eines Kriteriums zum Verwerfen der Nullhypothese (vor der Messung) kritischer Wert t0
α Signifikanzniveau
Bedeutung Auch wenn H0 gilt ist im Bruchteil α aller Faumllle t gt t0
Hypothesentest Messung
Schritt 3 Messung liefert t = t1
Berechnung des p-Werts = Wahrscheinlicheit fuumlr t ge t1
Schritt 4 Entscheidung Nullhypothese verwerfen falls p-Wert lt α
In diesem Beispiel Nullhypothese wird nicht verworfen weil p gt α
Hypothesentest Fehlertypen
Fehler 1 Art wahre Nullhypothese wird verworfen Flaumlche α
Fehler 2 Art falsche Nullhypothese wird akzeptiert Flaumlche β
Beispiele Fehler 1 Art (auch bdquofalse positiveldquo) ndash Krankheit bei Gesundem diagnostiziert ndash falsche Entdeckung eines neuen Teilchens ndash ehrlichen Kunden als potentiellen Betruumlger eingestuft
Beispiele Fehler 2 Art (auch bdquofalse negativeldquo) ndash echte Krankheit nicht erkannt ndash neuen Teilchens nicht gefunden obwohl in Daten vorhanden ndash Betruumlger nicht erkannt und Ware auf Rechnung ausgeliefert
Wahl des Signifkanzniveaus haumlngt auch davon ab welcher Fehler als schlimmer erachtet wird ndash Wiss Ruhm vs Laumlcherlichkeit ndash falsche vs unterlassene Behandlung ndash Kunde oder Ware verloren
1-β nennt man dieTeststaumlrke gebr auch Trennschaumlrfe Maumlchtigkeit (engl power)
Hypothesentest Signifikanz und p-Wert
Haumlufige Missverstaumlndnisse
p-Wert ist nicht die Wahrscheinlichkeit dass die Null-Hypohthese wahroder falsch ist
p-Wert ist auch nicht die Wahrscheinlichkeit dass Messung bdquonur eine Fluktuationldquo ist
Unterscheidung Signifikanz und p-Wert
α = Wahrscheinlichkeit fuumlr Fehler 1 Art (festgelegt vor der Messung )
p = Wahrscheinlichkeit dass Werte fuumlr die Pruumlfgroumlszlige t ge t1 gemessen wuumlrden wenn die Nullhypothese wahr ist (nach der Messung von t1 )
xkcdcom
Es ist nicht unuumlblich mit nochviel kleineren Signifkanzniveaus zu arbeiten zB Teilchenphysik ~10-7
bdquoExtraordinary Claims require Extraordinary Signifcanceldquo
Beispiel Muumlnzwurf
Sie haben nach 20-maligem Wurf einer Muumlnze 15 mal Kopf und 5 mal Zahl erhalten Wie kompatibel ist die Hypothese mit diesem Ausgang der Meszligreihe
Grundlage fuumlr die statistische Analyse ist die Binomialverteilung
Berechnung des p-Werts als Summe der Wahrscheinlichkeiten fuumlr das Auftreten von Werten k ge15 mit p=05
aber AchtungBei einer Muumlnze ist eine sehr valide Annahme Uumlberlegen Sie sich genau wann sie diese Hypothese ins Wanken bringen moumlchten
bei einem Signifikanz-Niveau von α=5 wuumlrde man also die Hypothese dass die Muumlnze in Ordnung ist verwerfen
bei eine Signifikanzniveau von α=1 waumlre sie noch akzeptabel
Beispiel2 Binomial mit bdquoUntergrundldquo
Ist eine medizinische Behandlung effektiv
60 bdquospontane Heilungldquo 100 Patienten behandelt rarr
Nullhypothese (nur) le60 der Patienten geheilt (also keine positive Wirkung der Behandlung)
Alternative die Behandlung wirkt
Pruumlfgroumlszlige Zahl der geheilten Patienten
Entscheidung uumlber Wirksamkeit mit 5 Signifikanz
Grundlage ist wieder die Binomial-Verteilung
rarr
mehr als 60 + 164 49 Patienten = 69 Patienten muumlssten geheilt werden um die Wirksamkeit (statistisch) zu belegen
Zahlen sind bdquogroszligldquo erlaube mir eine Gauszligsche Naumlherung
einseitiges 5-Quantil der Gauszlig-Verteilung liegt bei μ+164 σ
kennen wir schon χsup2 - Test
Die χ2-Wahrscheinlichkeit
dient zur Quantifizierung der Qualitaumlt einer Anpassung
Aussage mit welcher Wahrscheinlichkeit ein groumlszligerer Wert von χ2 am Minimum als der tatsaumlchlich beobachtete zu erwarten waumlre
Smin die bdquogewichtete Summe der Residuenquadrateldquo am Minimum bzgl der Parameter p folgt bei Gauszlig-foumlrmig verteilten Fehlern σi
einer χ2-Verteilung mit nf = N-k Freiheitsgraden Erwartungswert ltχ2gt=nf oder ltχ2 nf gt = 1
N Messungenk Parameter
Beispiel χsup2 ndash Test auf Unabhaumlngigkeit Sind die Variablen x und y unabhaumlngig Erinnerung
fuumlr unabhaumlngige Variable ist die Verteilung f(xy) gegeben durch das Produkt der Randverteilungen
f(xy) = fx(x) middot fy(y)
Im Fall eines 2-dimensionalen Histogramms Randverteilungen sind die Histogramme von x u y
Daraus laumlsst sich ein
Test auf Unabhaumlngigkeit konstruieren
Nullhypothese
folgt unter Annahme der Nullhypothese einer χsup2-Verteilung mit Ntot ndash bx ndash by Freiheitsgraden bxy Zahl der Bins in x und y
rarr p-value of chi2-independence test 21
x und y sind also wohl nicht unabhaumlngig Script Histogrampy bzw PhyPraKitpy
Qualitaumlt der Anpassung aus Likelihood
⊖ Likelihood-Methode zur Parameteranpassung liefert zunaumlchst keine Information zur Qualitaumlt einer Anpassung
Beispiel Likelihood der Gauszligverteilung
Referenz
χ2 o
bdquofully saturated modelldquo
in fruumlheren Diskussionen hatten wir diesen Term auf andere Art zu Null diskutiert ( bdquohaumlngt ja gar nicht von den Parametern ab -kann man also weglassenldquo )
Durch geeignete bdquoNormierungldquo kann Qualitaumltsinformation auch aus der Likelihood gewonnen werden Likelihood-Verhaumlltnis
der beobachteten Daten und (geeigneter) Referenzdaten
Qualitaumlt der Anpassung binned Likelihood-Fit
Beispiel 2 Likelihood der Poisson-Verteilung
Referenz
gof = goodness of fit
Auf analoge Weise lassen sich (effiziente) Pruumlfgroumlszligen auf Basis des Likelihood-Verhaumlltnisses auch fuumlr andere Verteilungen generieren
gofPoisson
konvergiert fuumlr groszlige N t gegen χsup2 2
Script gof-testpy
Mittelwert einer Stichprobe als Pruumlfgroumlszlige
n bdquostandard-normalverteilteldquo Zufallszahlen mit Mittelwert
wenn nicht bekannt ist nutzt man die Stichprobenvarianz
die normierte Groumlszlige folgt dann nicht der Gauszligverteilung
sondern der Studentschen t-Verteilung fuumlr n-1 Freiheitsgrade
insbesondere fuumlr kleine n viel groumlszligere Auslaumlufer als Gauszlig-Verteilung
Mittelwert einer Stichprobe als Pruumlfgroumlszlige rarr t-Verteilung verwenden
Studentsche t-Verteilung
1908 vom Guiness-Mitarbeiter WS Gossetunter dem PseudonymbdquoStudentldquo veroumlffentlicht
erste Anwendung Qualitaumltssicherung bei Bier der Marke Guinness
Anwendung Studentsche t-Verteilung
Haumlufige Fragestellung haben zwei unabhaumlngige Grundgesamtheiten (mit der gleichen Varianz) den selben Mittelwert
Nullhypothese x1 = x2 t-verteilte Pruumlfgroumlszlige mit nf = n1 + n2 ndash 2 Freiheitsgraden
mit
Wie vertraumlglich sind die Mittelwerte der (Noten-)Verteilungen
Studentscher t-Test t = 089 p -Wert aus t-Verteilung p = 37 Nullhypothese wird nicht verworfen
d h Unterschied nicht signifikant
Script t-testpy
Einseitiger oder zweiseitiger Test
Nullhypothese x1 = x2
Nullhypothese x1 nicht groumlszliger x2
Nullhypothese x2 nicht groumlszliger x1
kritische Region symmetrisch
Die bdquokritische Regionldquo zum Verwerfen der Null-Hypothese haumlngt von der Null-Hypothese selbst ab
kritische Region rechts (rechtsseitiger Test)
kritische Region links (linksseitiger Test)
Wird verworfen wenn mit hoher Signifikanz x1 gt x2 oder x2 gt x1
verwerfen wenn mit hoher Signifikanz x2 gt x1
verwerfen wenn mit hoher Signifikanz x1 gt x2
weitere Testverfahren
Welch-Test als Alternative zum Studentschen t-Test
zum Vergleich empirischer Daten auf gleichen Mittelwert bei ungleichen Varianzen der Stichproben
Kolmogorov-Smirnov-Test
zum Vergleich empirischer Daten mit vorgegebener Verteilungsfunktion zB sind die Daten Gauszlig-verteilt
Alternativen Anderson-Darling- oder Cramer-von Mises-Test
F-Test
auf gleiche Varianz von Stichproben
allg Testverfahren die auf dem Likelihood-Verhaumlltnis
beruhen
Optimale Wahl der Pruumlfgroumlszlige
Neyman ndash Pearson Lemma Bester Test fuumlr einfache Hypothesen
aumlquivalent
Problem exakte Likelihood oft unbekannt Moumlglichkeiten ndash (plausiblen) Ansatz fuumlr funktionale Form verwenden
ndash Monte Carlo ndash Simulation
Im Grenzfall groszliger Stichproben gibt es asymptotische Verteilungen fuumlr r(x) auch fuumlr zusammengesetzte Hypothesen (also mit
freien aus den Daten zu bestimmenden Parametern) (Wilkssches Theorem)
Klassifizierungsprobleme in hochdimen- sionalen Variablenraumlumen sind haumlufig
ndash ist der Buchstabe ein bdquoaldquo
ndash ist das Teilchen ein Elektron oder Myon
ndash ist der Kunde ein potentieller Betruumlger
ndash Signal oder Untergrund
ndash ist die E-Mail Spam
- hellip
Ausblick Klassifizierung als Hypothesentest
Gehoumlrt ein Ereignis zu einer von zwei oder mehreren Klassen ndash Zufallsereignis beschrieben durch n Zufallsvariable x1 hellip xn
ndash Klasse k beschrieben durch PDF fk(x1 hellip xn)
x
Gehoumlrt Punkt x zu Klasse 0 oder 1 Typische bdquoMVAldquo-Methoden zur Behandlung
allg Methoden des bdquoMachine Learningldquo ndash kuumlnstliche neuronale Netze ndash verstaumlrkte Entscheidungsbaumlume ndash Support-Vektoren ndash hellip (s VL Datenanalyse im Master)
x1
x2
Suche nach neuen Phaumlnomenen
Auch die Suche nach neuen Phaumlnomenen zB in der (Teilchen-)Physik ist ein HypothesentestFrage Ist Beobachtung vertraumlglich mit der bekannten Physik
- wenn ja Ausschlussgrenze auf neues Phaumlnomen bestimmen (geht nur wenn die Alternativhypothese genau festgelegt ist ndash Aufg der Theor Physik)
- wenn nein Signifikanz der Abweichung spezifizieren (als p-Wert)
Haumlufig fuumlhrt man bdquoZaumlhlexperimenteldquo zur Suche nach einem neuen Signal durch - relevant fuumlr die Beobachtung von n Ereignissen ist die Poisson-Verteilung
Nullhypothese μ = μ0
Alternative μ = μ0 + μ1 μ1 Beitrag durch neuen Effekt
Messung Beobachtung von nobs Ereignissen aufteilen in (erwarteten) Untergrund b = μ0 und Signal s = nobs ndash bp-Wert Wahrscheinlichkeit n ge nobs falls Nullpyhothese wahr
Beispiel Entdeckung des Higgs-Bosons
Bestimmung von Grenzen aus p-Werten
Untergrundhypothese Signalhypothese
Uumlbliche Art der Darstellung Signalgroumlszlige s den man mit Signifikanzniveau von 95 ausschlieszligen kann
b muss sehr gut bekannt modelliert seinwenn man den bdquoNormalfallldquo nicht kennt kann man nicht nach Abweichungen suchen
erhaltenes Limit fuumlr130 GeV
Haumlufigkeit
erwarteter Ausschluss
Beispiel Suche nach dem Higgs-Boson am LHC Stand 2011 Hypothesentest fuumlr
verschiedene H-Massen
Higgs-Entdeckung am LHCfrac12 Jahr spaumlter 4 Juli 2012 Klare Hinweise auf die Existenz eines Higgs-Bosons
Ereignisuumlberschuss in ZZ und γγ bei ATLAS und CMS
H rarr ZZ H rarr ZZ H rarr γγ H rarr γγ
Higgs-Entdeckung statistische Analyse
Bestimmung der Signalsignifikanz durch Vergleich mit der Untergrund-Hypothese und Bestimmung des bdquolokalen p-Wertsldquo SATLAS = 59 σ () (publizierte Ergebnisse) SCMS = 50σ ()
Zeitliche Entwicklung der Signal-Signifikanz Vorlaumlufige Ergebnisse vom 4 Juli 2012 der ATLAS-Kollaboration am LHC
Signal-Signifikanz vorlaumlufige Ergebnisse vom 4 Juli 2012 der CMS-Kollaboration am LHC
() Im Jargon der Teilchenphysiker entspricht die Angabe n σ dem entsprechenden Quantil der Gauszligverteilung
Beispiel Verursacht Rauchen Lungenkrebs
25 Personengruppen Rauchindex 100 wenn Zahl
der Zigaretten pro Tag dem Durchschnitt von allen Maumlnnern desselben Alters entspricht
Lungenkrebs-Index 100 wenn Zahl der Lungenkrebstoten dem Durchschnitt entspricht
Korrelations-Koeffizient 0716
Frage Kann bdquoNull-Hypotheseldquo H
0 (=kein
Zusammenhang) verworfen werden
Beispiel 2 Entdeckung des Higgs-Bosons
Haumlufigkeitsverteilung der Massen von vier MyonenFrage Ist das eingezeichnete (rote) Signal statistisch signifikant
zwischen 1215 und 1305 GeV ndash 9 Ereignisse beobachtet ndash ohne Signal ~3 erwartet
Frage Mit welcher Wahrscheinlichkeit wuumlrden bei einer Erwartung von 3 Ereignissen tatsaumlchlich 9 oder mehr beobachtet
Ist diese Wahrscheinlichkeit bdquokleinldquo (kleiner als eine vor der Messung festgelegte Grenze) so handelt es sich um ein bdquoneues Signalldquo
CMS Experiment Juli 2012
Hypothesentest
Hypothese formuliert als PDF einer Zufallsvariablen x Einfache Hypothese
spezifiziert Wahrscheinlichkeitsdichte vollstaumlndig
PDF f (x | H (λi) ) alle λi bekannt zB bdquoDaten folgen einer Poisson-Verteilung mit ν=35ldquo
Zusammengesetzte Hypothese spezifiziert WD bis auf einige aus den Daten zu bestimmende Parameter
PDF f (x | H ( λi Θj ) ) λi bekannt Θj aus Daten bestimmt
zB bdquoDaten folgen einer Gauszligverteilung mit bekanntem Mittelwert aber unbekannter Standardabweichung
= Vergleich einer Stichprobe aus Daten mit mehreren Hypothesen Hi
Hypothesentest Prinzip
Zu testende Hypothese Null-Hypothese H0
( bdquoAlles beim Altenldquo bdquoStandardmodellldquo)
Andere Hypothesen Alternativhypothese(n) H
1 H
2 hellip
(zB Abweichung von der Norm neuer Effekt hellip )
fuumlr konkreten Test muss diese explizit formuliert werden ndash bdquoDaten folgen einer Poisson-Verteilung mit ν=30ldquo (nicht 35) ndash bdquoMeszligwerte folgen einer Poisson-Verteilung mit ν lt 70 ndash bdquoMeszligwerte folgen einer Gauszligverteilung mit μ=1ldquo (nicht 0) ndash bdquoDaten sind nicht Poisson-verteiltldquo (schwieriger da unendlich viele Alternativen moumlglich sind)
Typisches Ergebnis
Verwerfen einer oder mehrerer Hypothesen
aber Null-Hypothese kann nie bewiesen werden denn es koumlnnte eine (geringfuumlgig) bessere Alternative geben
Hypothesentest Pruumlfgroumlszlige
Startpunkt zufaumlllige Stichprobe x = ( x1 hellip xn )
Schritt 1 Definition einer Pruumlfgroumlszlige t(x) (engl bdquotest statisticldquo) zur bestmoumlglichen Unterscheidung der Hypothesen Hi
ndash t(x) im Prinzip bel Funktion von x zB Mittelwert Likelihood L( Hi | x)
ndash idealerweise ist t(x) eine skalare Groumlszlige
t(x) ist Zufallsvariable mit Wahrscheinlichkeitsdichten g(t| Hi)
Hypothesentest Signifikanzniveau
Schritt 2 Festlegung eines Kriteriums zum Verwerfen der Nullhypothese (vor der Messung) kritischer Wert t0
α Signifikanzniveau
Bedeutung Auch wenn H0 gilt ist im Bruchteil α aller Faumllle t gt t0
Hypothesentest Messung
Schritt 3 Messung liefert t = t1
Berechnung des p-Werts = Wahrscheinlicheit fuumlr t ge t1
Schritt 4 Entscheidung Nullhypothese verwerfen falls p-Wert lt α
In diesem Beispiel Nullhypothese wird nicht verworfen weil p gt α
Hypothesentest Fehlertypen
Fehler 1 Art wahre Nullhypothese wird verworfen Flaumlche α
Fehler 2 Art falsche Nullhypothese wird akzeptiert Flaumlche β
Beispiele Fehler 1 Art (auch bdquofalse positiveldquo) ndash Krankheit bei Gesundem diagnostiziert ndash falsche Entdeckung eines neuen Teilchens ndash ehrlichen Kunden als potentiellen Betruumlger eingestuft
Beispiele Fehler 2 Art (auch bdquofalse negativeldquo) ndash echte Krankheit nicht erkannt ndash neuen Teilchens nicht gefunden obwohl in Daten vorhanden ndash Betruumlger nicht erkannt und Ware auf Rechnung ausgeliefert
Wahl des Signifkanzniveaus haumlngt auch davon ab welcher Fehler als schlimmer erachtet wird ndash Wiss Ruhm vs Laumlcherlichkeit ndash falsche vs unterlassene Behandlung ndash Kunde oder Ware verloren
1-β nennt man dieTeststaumlrke gebr auch Trennschaumlrfe Maumlchtigkeit (engl power)
Hypothesentest Signifikanz und p-Wert
Haumlufige Missverstaumlndnisse
p-Wert ist nicht die Wahrscheinlichkeit dass die Null-Hypohthese wahroder falsch ist
p-Wert ist auch nicht die Wahrscheinlichkeit dass Messung bdquonur eine Fluktuationldquo ist
Unterscheidung Signifikanz und p-Wert
α = Wahrscheinlichkeit fuumlr Fehler 1 Art (festgelegt vor der Messung )
p = Wahrscheinlichkeit dass Werte fuumlr die Pruumlfgroumlszlige t ge t1 gemessen wuumlrden wenn die Nullhypothese wahr ist (nach der Messung von t1 )
xkcdcom
Es ist nicht unuumlblich mit nochviel kleineren Signifkanzniveaus zu arbeiten zB Teilchenphysik ~10-7
bdquoExtraordinary Claims require Extraordinary Signifcanceldquo
Beispiel Muumlnzwurf
Sie haben nach 20-maligem Wurf einer Muumlnze 15 mal Kopf und 5 mal Zahl erhalten Wie kompatibel ist die Hypothese mit diesem Ausgang der Meszligreihe
Grundlage fuumlr die statistische Analyse ist die Binomialverteilung
Berechnung des p-Werts als Summe der Wahrscheinlichkeiten fuumlr das Auftreten von Werten k ge15 mit p=05
aber AchtungBei einer Muumlnze ist eine sehr valide Annahme Uumlberlegen Sie sich genau wann sie diese Hypothese ins Wanken bringen moumlchten
bei einem Signifikanz-Niveau von α=5 wuumlrde man also die Hypothese dass die Muumlnze in Ordnung ist verwerfen
bei eine Signifikanzniveau von α=1 waumlre sie noch akzeptabel
Beispiel2 Binomial mit bdquoUntergrundldquo
Ist eine medizinische Behandlung effektiv
60 bdquospontane Heilungldquo 100 Patienten behandelt rarr
Nullhypothese (nur) le60 der Patienten geheilt (also keine positive Wirkung der Behandlung)
Alternative die Behandlung wirkt
Pruumlfgroumlszlige Zahl der geheilten Patienten
Entscheidung uumlber Wirksamkeit mit 5 Signifikanz
Grundlage ist wieder die Binomial-Verteilung
rarr
mehr als 60 + 164 49 Patienten = 69 Patienten muumlssten geheilt werden um die Wirksamkeit (statistisch) zu belegen
Zahlen sind bdquogroszligldquo erlaube mir eine Gauszligsche Naumlherung
einseitiges 5-Quantil der Gauszlig-Verteilung liegt bei μ+164 σ
kennen wir schon χsup2 - Test
Die χ2-Wahrscheinlichkeit
dient zur Quantifizierung der Qualitaumlt einer Anpassung
Aussage mit welcher Wahrscheinlichkeit ein groumlszligerer Wert von χ2 am Minimum als der tatsaumlchlich beobachtete zu erwarten waumlre
Smin die bdquogewichtete Summe der Residuenquadrateldquo am Minimum bzgl der Parameter p folgt bei Gauszlig-foumlrmig verteilten Fehlern σi
einer χ2-Verteilung mit nf = N-k Freiheitsgraden Erwartungswert ltχ2gt=nf oder ltχ2 nf gt = 1
N Messungenk Parameter
Beispiel χsup2 ndash Test auf Unabhaumlngigkeit Sind die Variablen x und y unabhaumlngig Erinnerung
fuumlr unabhaumlngige Variable ist die Verteilung f(xy) gegeben durch das Produkt der Randverteilungen
f(xy) = fx(x) middot fy(y)
Im Fall eines 2-dimensionalen Histogramms Randverteilungen sind die Histogramme von x u y
Daraus laumlsst sich ein
Test auf Unabhaumlngigkeit konstruieren
Nullhypothese
folgt unter Annahme der Nullhypothese einer χsup2-Verteilung mit Ntot ndash bx ndash by Freiheitsgraden bxy Zahl der Bins in x und y
rarr p-value of chi2-independence test 21
x und y sind also wohl nicht unabhaumlngig Script Histogrampy bzw PhyPraKitpy
Qualitaumlt der Anpassung aus Likelihood
⊖ Likelihood-Methode zur Parameteranpassung liefert zunaumlchst keine Information zur Qualitaumlt einer Anpassung
Beispiel Likelihood der Gauszligverteilung
Referenz
χ2 o
bdquofully saturated modelldquo
in fruumlheren Diskussionen hatten wir diesen Term auf andere Art zu Null diskutiert ( bdquohaumlngt ja gar nicht von den Parametern ab -kann man also weglassenldquo )
Durch geeignete bdquoNormierungldquo kann Qualitaumltsinformation auch aus der Likelihood gewonnen werden Likelihood-Verhaumlltnis
der beobachteten Daten und (geeigneter) Referenzdaten
Qualitaumlt der Anpassung binned Likelihood-Fit
Beispiel 2 Likelihood der Poisson-Verteilung
Referenz
gof = goodness of fit
Auf analoge Weise lassen sich (effiziente) Pruumlfgroumlszligen auf Basis des Likelihood-Verhaumlltnisses auch fuumlr andere Verteilungen generieren
gofPoisson
konvergiert fuumlr groszlige N t gegen χsup2 2
Script gof-testpy
Mittelwert einer Stichprobe als Pruumlfgroumlszlige
n bdquostandard-normalverteilteldquo Zufallszahlen mit Mittelwert
wenn nicht bekannt ist nutzt man die Stichprobenvarianz
die normierte Groumlszlige folgt dann nicht der Gauszligverteilung
sondern der Studentschen t-Verteilung fuumlr n-1 Freiheitsgrade
insbesondere fuumlr kleine n viel groumlszligere Auslaumlufer als Gauszlig-Verteilung
Mittelwert einer Stichprobe als Pruumlfgroumlszlige rarr t-Verteilung verwenden
Studentsche t-Verteilung
1908 vom Guiness-Mitarbeiter WS Gossetunter dem PseudonymbdquoStudentldquo veroumlffentlicht
erste Anwendung Qualitaumltssicherung bei Bier der Marke Guinness
Anwendung Studentsche t-Verteilung
Haumlufige Fragestellung haben zwei unabhaumlngige Grundgesamtheiten (mit der gleichen Varianz) den selben Mittelwert
Nullhypothese x1 = x2 t-verteilte Pruumlfgroumlszlige mit nf = n1 + n2 ndash 2 Freiheitsgraden
mit
Wie vertraumlglich sind die Mittelwerte der (Noten-)Verteilungen
Studentscher t-Test t = 089 p -Wert aus t-Verteilung p = 37 Nullhypothese wird nicht verworfen
d h Unterschied nicht signifikant
Script t-testpy
Einseitiger oder zweiseitiger Test
Nullhypothese x1 = x2
Nullhypothese x1 nicht groumlszliger x2
Nullhypothese x2 nicht groumlszliger x1
kritische Region symmetrisch
Die bdquokritische Regionldquo zum Verwerfen der Null-Hypothese haumlngt von der Null-Hypothese selbst ab
kritische Region rechts (rechtsseitiger Test)
kritische Region links (linksseitiger Test)
Wird verworfen wenn mit hoher Signifikanz x1 gt x2 oder x2 gt x1
verwerfen wenn mit hoher Signifikanz x2 gt x1
verwerfen wenn mit hoher Signifikanz x1 gt x2
weitere Testverfahren
Welch-Test als Alternative zum Studentschen t-Test
zum Vergleich empirischer Daten auf gleichen Mittelwert bei ungleichen Varianzen der Stichproben
Kolmogorov-Smirnov-Test
zum Vergleich empirischer Daten mit vorgegebener Verteilungsfunktion zB sind die Daten Gauszlig-verteilt
Alternativen Anderson-Darling- oder Cramer-von Mises-Test
F-Test
auf gleiche Varianz von Stichproben
allg Testverfahren die auf dem Likelihood-Verhaumlltnis
beruhen
Optimale Wahl der Pruumlfgroumlszlige
Neyman ndash Pearson Lemma Bester Test fuumlr einfache Hypothesen
aumlquivalent
Problem exakte Likelihood oft unbekannt Moumlglichkeiten ndash (plausiblen) Ansatz fuumlr funktionale Form verwenden
ndash Monte Carlo ndash Simulation
Im Grenzfall groszliger Stichproben gibt es asymptotische Verteilungen fuumlr r(x) auch fuumlr zusammengesetzte Hypothesen (also mit
freien aus den Daten zu bestimmenden Parametern) (Wilkssches Theorem)
Klassifizierungsprobleme in hochdimen- sionalen Variablenraumlumen sind haumlufig
ndash ist der Buchstabe ein bdquoaldquo
ndash ist das Teilchen ein Elektron oder Myon
ndash ist der Kunde ein potentieller Betruumlger
ndash Signal oder Untergrund
ndash ist die E-Mail Spam
- hellip
Ausblick Klassifizierung als Hypothesentest
Gehoumlrt ein Ereignis zu einer von zwei oder mehreren Klassen ndash Zufallsereignis beschrieben durch n Zufallsvariable x1 hellip xn
ndash Klasse k beschrieben durch PDF fk(x1 hellip xn)
x
Gehoumlrt Punkt x zu Klasse 0 oder 1 Typische bdquoMVAldquo-Methoden zur Behandlung
allg Methoden des bdquoMachine Learningldquo ndash kuumlnstliche neuronale Netze ndash verstaumlrkte Entscheidungsbaumlume ndash Support-Vektoren ndash hellip (s VL Datenanalyse im Master)
x1
x2
Suche nach neuen Phaumlnomenen
Auch die Suche nach neuen Phaumlnomenen zB in der (Teilchen-)Physik ist ein HypothesentestFrage Ist Beobachtung vertraumlglich mit der bekannten Physik
- wenn ja Ausschlussgrenze auf neues Phaumlnomen bestimmen (geht nur wenn die Alternativhypothese genau festgelegt ist ndash Aufg der Theor Physik)
- wenn nein Signifikanz der Abweichung spezifizieren (als p-Wert)
Haumlufig fuumlhrt man bdquoZaumlhlexperimenteldquo zur Suche nach einem neuen Signal durch - relevant fuumlr die Beobachtung von n Ereignissen ist die Poisson-Verteilung
Nullhypothese μ = μ0
Alternative μ = μ0 + μ1 μ1 Beitrag durch neuen Effekt
Messung Beobachtung von nobs Ereignissen aufteilen in (erwarteten) Untergrund b = μ0 und Signal s = nobs ndash bp-Wert Wahrscheinlichkeit n ge nobs falls Nullpyhothese wahr
Beispiel Entdeckung des Higgs-Bosons
Bestimmung von Grenzen aus p-Werten
Untergrundhypothese Signalhypothese
Uumlbliche Art der Darstellung Signalgroumlszlige s den man mit Signifikanzniveau von 95 ausschlieszligen kann
b muss sehr gut bekannt modelliert seinwenn man den bdquoNormalfallldquo nicht kennt kann man nicht nach Abweichungen suchen
erhaltenes Limit fuumlr130 GeV
Haumlufigkeit
erwarteter Ausschluss
Beispiel Suche nach dem Higgs-Boson am LHC Stand 2011 Hypothesentest fuumlr
verschiedene H-Massen
Higgs-Entdeckung am LHCfrac12 Jahr spaumlter 4 Juli 2012 Klare Hinweise auf die Existenz eines Higgs-Bosons
Ereignisuumlberschuss in ZZ und γγ bei ATLAS und CMS
H rarr ZZ H rarr ZZ H rarr γγ H rarr γγ
Higgs-Entdeckung statistische Analyse
Bestimmung der Signalsignifikanz durch Vergleich mit der Untergrund-Hypothese und Bestimmung des bdquolokalen p-Wertsldquo SATLAS = 59 σ () (publizierte Ergebnisse) SCMS = 50σ ()
Zeitliche Entwicklung der Signal-Signifikanz Vorlaumlufige Ergebnisse vom 4 Juli 2012 der ATLAS-Kollaboration am LHC
Signal-Signifikanz vorlaumlufige Ergebnisse vom 4 Juli 2012 der CMS-Kollaboration am LHC
() Im Jargon der Teilchenphysiker entspricht die Angabe n σ dem entsprechenden Quantil der Gauszligverteilung
Beispiel 2 Entdeckung des Higgs-Bosons
Haumlufigkeitsverteilung der Massen von vier MyonenFrage Ist das eingezeichnete (rote) Signal statistisch signifikant
zwischen 1215 und 1305 GeV ndash 9 Ereignisse beobachtet ndash ohne Signal ~3 erwartet
Frage Mit welcher Wahrscheinlichkeit wuumlrden bei einer Erwartung von 3 Ereignissen tatsaumlchlich 9 oder mehr beobachtet
Ist diese Wahrscheinlichkeit bdquokleinldquo (kleiner als eine vor der Messung festgelegte Grenze) so handelt es sich um ein bdquoneues Signalldquo
CMS Experiment Juli 2012
Hypothesentest
Hypothese formuliert als PDF einer Zufallsvariablen x Einfache Hypothese
spezifiziert Wahrscheinlichkeitsdichte vollstaumlndig
PDF f (x | H (λi) ) alle λi bekannt zB bdquoDaten folgen einer Poisson-Verteilung mit ν=35ldquo
Zusammengesetzte Hypothese spezifiziert WD bis auf einige aus den Daten zu bestimmende Parameter
PDF f (x | H ( λi Θj ) ) λi bekannt Θj aus Daten bestimmt
zB bdquoDaten folgen einer Gauszligverteilung mit bekanntem Mittelwert aber unbekannter Standardabweichung
= Vergleich einer Stichprobe aus Daten mit mehreren Hypothesen Hi
Hypothesentest Prinzip
Zu testende Hypothese Null-Hypothese H0
( bdquoAlles beim Altenldquo bdquoStandardmodellldquo)
Andere Hypothesen Alternativhypothese(n) H
1 H
2 hellip
(zB Abweichung von der Norm neuer Effekt hellip )
fuumlr konkreten Test muss diese explizit formuliert werden ndash bdquoDaten folgen einer Poisson-Verteilung mit ν=30ldquo (nicht 35) ndash bdquoMeszligwerte folgen einer Poisson-Verteilung mit ν lt 70 ndash bdquoMeszligwerte folgen einer Gauszligverteilung mit μ=1ldquo (nicht 0) ndash bdquoDaten sind nicht Poisson-verteiltldquo (schwieriger da unendlich viele Alternativen moumlglich sind)
Typisches Ergebnis
Verwerfen einer oder mehrerer Hypothesen
aber Null-Hypothese kann nie bewiesen werden denn es koumlnnte eine (geringfuumlgig) bessere Alternative geben
Hypothesentest Pruumlfgroumlszlige
Startpunkt zufaumlllige Stichprobe x = ( x1 hellip xn )
Schritt 1 Definition einer Pruumlfgroumlszlige t(x) (engl bdquotest statisticldquo) zur bestmoumlglichen Unterscheidung der Hypothesen Hi
ndash t(x) im Prinzip bel Funktion von x zB Mittelwert Likelihood L( Hi | x)
ndash idealerweise ist t(x) eine skalare Groumlszlige
t(x) ist Zufallsvariable mit Wahrscheinlichkeitsdichten g(t| Hi)
Hypothesentest Signifikanzniveau
Schritt 2 Festlegung eines Kriteriums zum Verwerfen der Nullhypothese (vor der Messung) kritischer Wert t0
α Signifikanzniveau
Bedeutung Auch wenn H0 gilt ist im Bruchteil α aller Faumllle t gt t0
Hypothesentest Messung
Schritt 3 Messung liefert t = t1
Berechnung des p-Werts = Wahrscheinlicheit fuumlr t ge t1
Schritt 4 Entscheidung Nullhypothese verwerfen falls p-Wert lt α
In diesem Beispiel Nullhypothese wird nicht verworfen weil p gt α
Hypothesentest Fehlertypen
Fehler 1 Art wahre Nullhypothese wird verworfen Flaumlche α
Fehler 2 Art falsche Nullhypothese wird akzeptiert Flaumlche β
Beispiele Fehler 1 Art (auch bdquofalse positiveldquo) ndash Krankheit bei Gesundem diagnostiziert ndash falsche Entdeckung eines neuen Teilchens ndash ehrlichen Kunden als potentiellen Betruumlger eingestuft
Beispiele Fehler 2 Art (auch bdquofalse negativeldquo) ndash echte Krankheit nicht erkannt ndash neuen Teilchens nicht gefunden obwohl in Daten vorhanden ndash Betruumlger nicht erkannt und Ware auf Rechnung ausgeliefert
Wahl des Signifkanzniveaus haumlngt auch davon ab welcher Fehler als schlimmer erachtet wird ndash Wiss Ruhm vs Laumlcherlichkeit ndash falsche vs unterlassene Behandlung ndash Kunde oder Ware verloren
1-β nennt man dieTeststaumlrke gebr auch Trennschaumlrfe Maumlchtigkeit (engl power)
Hypothesentest Signifikanz und p-Wert
Haumlufige Missverstaumlndnisse
p-Wert ist nicht die Wahrscheinlichkeit dass die Null-Hypohthese wahroder falsch ist
p-Wert ist auch nicht die Wahrscheinlichkeit dass Messung bdquonur eine Fluktuationldquo ist
Unterscheidung Signifikanz und p-Wert
α = Wahrscheinlichkeit fuumlr Fehler 1 Art (festgelegt vor der Messung )
p = Wahrscheinlichkeit dass Werte fuumlr die Pruumlfgroumlszlige t ge t1 gemessen wuumlrden wenn die Nullhypothese wahr ist (nach der Messung von t1 )
xkcdcom
Es ist nicht unuumlblich mit nochviel kleineren Signifkanzniveaus zu arbeiten zB Teilchenphysik ~10-7
bdquoExtraordinary Claims require Extraordinary Signifcanceldquo
Beispiel Muumlnzwurf
Sie haben nach 20-maligem Wurf einer Muumlnze 15 mal Kopf und 5 mal Zahl erhalten Wie kompatibel ist die Hypothese mit diesem Ausgang der Meszligreihe
Grundlage fuumlr die statistische Analyse ist die Binomialverteilung
Berechnung des p-Werts als Summe der Wahrscheinlichkeiten fuumlr das Auftreten von Werten k ge15 mit p=05
aber AchtungBei einer Muumlnze ist eine sehr valide Annahme Uumlberlegen Sie sich genau wann sie diese Hypothese ins Wanken bringen moumlchten
bei einem Signifikanz-Niveau von α=5 wuumlrde man also die Hypothese dass die Muumlnze in Ordnung ist verwerfen
bei eine Signifikanzniveau von α=1 waumlre sie noch akzeptabel
Beispiel2 Binomial mit bdquoUntergrundldquo
Ist eine medizinische Behandlung effektiv
60 bdquospontane Heilungldquo 100 Patienten behandelt rarr
Nullhypothese (nur) le60 der Patienten geheilt (also keine positive Wirkung der Behandlung)
Alternative die Behandlung wirkt
Pruumlfgroumlszlige Zahl der geheilten Patienten
Entscheidung uumlber Wirksamkeit mit 5 Signifikanz
Grundlage ist wieder die Binomial-Verteilung
rarr
mehr als 60 + 164 49 Patienten = 69 Patienten muumlssten geheilt werden um die Wirksamkeit (statistisch) zu belegen
Zahlen sind bdquogroszligldquo erlaube mir eine Gauszligsche Naumlherung
einseitiges 5-Quantil der Gauszlig-Verteilung liegt bei μ+164 σ
kennen wir schon χsup2 - Test
Die χ2-Wahrscheinlichkeit
dient zur Quantifizierung der Qualitaumlt einer Anpassung
Aussage mit welcher Wahrscheinlichkeit ein groumlszligerer Wert von χ2 am Minimum als der tatsaumlchlich beobachtete zu erwarten waumlre
Smin die bdquogewichtete Summe der Residuenquadrateldquo am Minimum bzgl der Parameter p folgt bei Gauszlig-foumlrmig verteilten Fehlern σi
einer χ2-Verteilung mit nf = N-k Freiheitsgraden Erwartungswert ltχ2gt=nf oder ltχ2 nf gt = 1
N Messungenk Parameter
Beispiel χsup2 ndash Test auf Unabhaumlngigkeit Sind die Variablen x und y unabhaumlngig Erinnerung
fuumlr unabhaumlngige Variable ist die Verteilung f(xy) gegeben durch das Produkt der Randverteilungen
f(xy) = fx(x) middot fy(y)
Im Fall eines 2-dimensionalen Histogramms Randverteilungen sind die Histogramme von x u y
Daraus laumlsst sich ein
Test auf Unabhaumlngigkeit konstruieren
Nullhypothese
folgt unter Annahme der Nullhypothese einer χsup2-Verteilung mit Ntot ndash bx ndash by Freiheitsgraden bxy Zahl der Bins in x und y
rarr p-value of chi2-independence test 21
x und y sind also wohl nicht unabhaumlngig Script Histogrampy bzw PhyPraKitpy
Qualitaumlt der Anpassung aus Likelihood
⊖ Likelihood-Methode zur Parameteranpassung liefert zunaumlchst keine Information zur Qualitaumlt einer Anpassung
Beispiel Likelihood der Gauszligverteilung
Referenz
χ2 o
bdquofully saturated modelldquo
in fruumlheren Diskussionen hatten wir diesen Term auf andere Art zu Null diskutiert ( bdquohaumlngt ja gar nicht von den Parametern ab -kann man also weglassenldquo )
Durch geeignete bdquoNormierungldquo kann Qualitaumltsinformation auch aus der Likelihood gewonnen werden Likelihood-Verhaumlltnis
der beobachteten Daten und (geeigneter) Referenzdaten
Qualitaumlt der Anpassung binned Likelihood-Fit
Beispiel 2 Likelihood der Poisson-Verteilung
Referenz
gof = goodness of fit
Auf analoge Weise lassen sich (effiziente) Pruumlfgroumlszligen auf Basis des Likelihood-Verhaumlltnisses auch fuumlr andere Verteilungen generieren
gofPoisson
konvergiert fuumlr groszlige N t gegen χsup2 2
Script gof-testpy
Mittelwert einer Stichprobe als Pruumlfgroumlszlige
n bdquostandard-normalverteilteldquo Zufallszahlen mit Mittelwert
wenn nicht bekannt ist nutzt man die Stichprobenvarianz
die normierte Groumlszlige folgt dann nicht der Gauszligverteilung
sondern der Studentschen t-Verteilung fuumlr n-1 Freiheitsgrade
insbesondere fuumlr kleine n viel groumlszligere Auslaumlufer als Gauszlig-Verteilung
Mittelwert einer Stichprobe als Pruumlfgroumlszlige rarr t-Verteilung verwenden
Studentsche t-Verteilung
1908 vom Guiness-Mitarbeiter WS Gossetunter dem PseudonymbdquoStudentldquo veroumlffentlicht
erste Anwendung Qualitaumltssicherung bei Bier der Marke Guinness
Anwendung Studentsche t-Verteilung
Haumlufige Fragestellung haben zwei unabhaumlngige Grundgesamtheiten (mit der gleichen Varianz) den selben Mittelwert
Nullhypothese x1 = x2 t-verteilte Pruumlfgroumlszlige mit nf = n1 + n2 ndash 2 Freiheitsgraden
mit
Wie vertraumlglich sind die Mittelwerte der (Noten-)Verteilungen
Studentscher t-Test t = 089 p -Wert aus t-Verteilung p = 37 Nullhypothese wird nicht verworfen
d h Unterschied nicht signifikant
Script t-testpy
Einseitiger oder zweiseitiger Test
Nullhypothese x1 = x2
Nullhypothese x1 nicht groumlszliger x2
Nullhypothese x2 nicht groumlszliger x1
kritische Region symmetrisch
Die bdquokritische Regionldquo zum Verwerfen der Null-Hypothese haumlngt von der Null-Hypothese selbst ab
kritische Region rechts (rechtsseitiger Test)
kritische Region links (linksseitiger Test)
Wird verworfen wenn mit hoher Signifikanz x1 gt x2 oder x2 gt x1
verwerfen wenn mit hoher Signifikanz x2 gt x1
verwerfen wenn mit hoher Signifikanz x1 gt x2
weitere Testverfahren
Welch-Test als Alternative zum Studentschen t-Test
zum Vergleich empirischer Daten auf gleichen Mittelwert bei ungleichen Varianzen der Stichproben
Kolmogorov-Smirnov-Test
zum Vergleich empirischer Daten mit vorgegebener Verteilungsfunktion zB sind die Daten Gauszlig-verteilt
Alternativen Anderson-Darling- oder Cramer-von Mises-Test
F-Test
auf gleiche Varianz von Stichproben
allg Testverfahren die auf dem Likelihood-Verhaumlltnis
beruhen
Optimale Wahl der Pruumlfgroumlszlige
Neyman ndash Pearson Lemma Bester Test fuumlr einfache Hypothesen
aumlquivalent
Problem exakte Likelihood oft unbekannt Moumlglichkeiten ndash (plausiblen) Ansatz fuumlr funktionale Form verwenden
ndash Monte Carlo ndash Simulation
Im Grenzfall groszliger Stichproben gibt es asymptotische Verteilungen fuumlr r(x) auch fuumlr zusammengesetzte Hypothesen (also mit
freien aus den Daten zu bestimmenden Parametern) (Wilkssches Theorem)
Klassifizierungsprobleme in hochdimen- sionalen Variablenraumlumen sind haumlufig
ndash ist der Buchstabe ein bdquoaldquo
ndash ist das Teilchen ein Elektron oder Myon
ndash ist der Kunde ein potentieller Betruumlger
ndash Signal oder Untergrund
ndash ist die E-Mail Spam
- hellip
Ausblick Klassifizierung als Hypothesentest
Gehoumlrt ein Ereignis zu einer von zwei oder mehreren Klassen ndash Zufallsereignis beschrieben durch n Zufallsvariable x1 hellip xn
ndash Klasse k beschrieben durch PDF fk(x1 hellip xn)
x
Gehoumlrt Punkt x zu Klasse 0 oder 1 Typische bdquoMVAldquo-Methoden zur Behandlung
allg Methoden des bdquoMachine Learningldquo ndash kuumlnstliche neuronale Netze ndash verstaumlrkte Entscheidungsbaumlume ndash Support-Vektoren ndash hellip (s VL Datenanalyse im Master)
x1
x2
Suche nach neuen Phaumlnomenen
Auch die Suche nach neuen Phaumlnomenen zB in der (Teilchen-)Physik ist ein HypothesentestFrage Ist Beobachtung vertraumlglich mit der bekannten Physik
- wenn ja Ausschlussgrenze auf neues Phaumlnomen bestimmen (geht nur wenn die Alternativhypothese genau festgelegt ist ndash Aufg der Theor Physik)
- wenn nein Signifikanz der Abweichung spezifizieren (als p-Wert)
Haumlufig fuumlhrt man bdquoZaumlhlexperimenteldquo zur Suche nach einem neuen Signal durch - relevant fuumlr die Beobachtung von n Ereignissen ist die Poisson-Verteilung
Nullhypothese μ = μ0
Alternative μ = μ0 + μ1 μ1 Beitrag durch neuen Effekt
Messung Beobachtung von nobs Ereignissen aufteilen in (erwarteten) Untergrund b = μ0 und Signal s = nobs ndash bp-Wert Wahrscheinlichkeit n ge nobs falls Nullpyhothese wahr
Beispiel Entdeckung des Higgs-Bosons
Bestimmung von Grenzen aus p-Werten
Untergrundhypothese Signalhypothese
Uumlbliche Art der Darstellung Signalgroumlszlige s den man mit Signifikanzniveau von 95 ausschlieszligen kann
b muss sehr gut bekannt modelliert seinwenn man den bdquoNormalfallldquo nicht kennt kann man nicht nach Abweichungen suchen
erhaltenes Limit fuumlr130 GeV
Haumlufigkeit
erwarteter Ausschluss
Beispiel Suche nach dem Higgs-Boson am LHC Stand 2011 Hypothesentest fuumlr
verschiedene H-Massen
Higgs-Entdeckung am LHCfrac12 Jahr spaumlter 4 Juli 2012 Klare Hinweise auf die Existenz eines Higgs-Bosons
Ereignisuumlberschuss in ZZ und γγ bei ATLAS und CMS
H rarr ZZ H rarr ZZ H rarr γγ H rarr γγ
Higgs-Entdeckung statistische Analyse
Bestimmung der Signalsignifikanz durch Vergleich mit der Untergrund-Hypothese und Bestimmung des bdquolokalen p-Wertsldquo SATLAS = 59 σ () (publizierte Ergebnisse) SCMS = 50σ ()
Zeitliche Entwicklung der Signal-Signifikanz Vorlaumlufige Ergebnisse vom 4 Juli 2012 der ATLAS-Kollaboration am LHC
Signal-Signifikanz vorlaumlufige Ergebnisse vom 4 Juli 2012 der CMS-Kollaboration am LHC
() Im Jargon der Teilchenphysiker entspricht die Angabe n σ dem entsprechenden Quantil der Gauszligverteilung
Hypothesentest
Hypothese formuliert als PDF einer Zufallsvariablen x Einfache Hypothese
spezifiziert Wahrscheinlichkeitsdichte vollstaumlndig
PDF f (x | H (λi) ) alle λi bekannt zB bdquoDaten folgen einer Poisson-Verteilung mit ν=35ldquo
Zusammengesetzte Hypothese spezifiziert WD bis auf einige aus den Daten zu bestimmende Parameter
PDF f (x | H ( λi Θj ) ) λi bekannt Θj aus Daten bestimmt
zB bdquoDaten folgen einer Gauszligverteilung mit bekanntem Mittelwert aber unbekannter Standardabweichung
= Vergleich einer Stichprobe aus Daten mit mehreren Hypothesen Hi
Hypothesentest Prinzip
Zu testende Hypothese Null-Hypothese H0
( bdquoAlles beim Altenldquo bdquoStandardmodellldquo)
Andere Hypothesen Alternativhypothese(n) H
1 H
2 hellip
(zB Abweichung von der Norm neuer Effekt hellip )
fuumlr konkreten Test muss diese explizit formuliert werden ndash bdquoDaten folgen einer Poisson-Verteilung mit ν=30ldquo (nicht 35) ndash bdquoMeszligwerte folgen einer Poisson-Verteilung mit ν lt 70 ndash bdquoMeszligwerte folgen einer Gauszligverteilung mit μ=1ldquo (nicht 0) ndash bdquoDaten sind nicht Poisson-verteiltldquo (schwieriger da unendlich viele Alternativen moumlglich sind)
Typisches Ergebnis
Verwerfen einer oder mehrerer Hypothesen
aber Null-Hypothese kann nie bewiesen werden denn es koumlnnte eine (geringfuumlgig) bessere Alternative geben
Hypothesentest Pruumlfgroumlszlige
Startpunkt zufaumlllige Stichprobe x = ( x1 hellip xn )
Schritt 1 Definition einer Pruumlfgroumlszlige t(x) (engl bdquotest statisticldquo) zur bestmoumlglichen Unterscheidung der Hypothesen Hi
ndash t(x) im Prinzip bel Funktion von x zB Mittelwert Likelihood L( Hi | x)
ndash idealerweise ist t(x) eine skalare Groumlszlige
t(x) ist Zufallsvariable mit Wahrscheinlichkeitsdichten g(t| Hi)
Hypothesentest Signifikanzniveau
Schritt 2 Festlegung eines Kriteriums zum Verwerfen der Nullhypothese (vor der Messung) kritischer Wert t0
α Signifikanzniveau
Bedeutung Auch wenn H0 gilt ist im Bruchteil α aller Faumllle t gt t0
Hypothesentest Messung
Schritt 3 Messung liefert t = t1
Berechnung des p-Werts = Wahrscheinlicheit fuumlr t ge t1
Schritt 4 Entscheidung Nullhypothese verwerfen falls p-Wert lt α
In diesem Beispiel Nullhypothese wird nicht verworfen weil p gt α
Hypothesentest Fehlertypen
Fehler 1 Art wahre Nullhypothese wird verworfen Flaumlche α
Fehler 2 Art falsche Nullhypothese wird akzeptiert Flaumlche β
Beispiele Fehler 1 Art (auch bdquofalse positiveldquo) ndash Krankheit bei Gesundem diagnostiziert ndash falsche Entdeckung eines neuen Teilchens ndash ehrlichen Kunden als potentiellen Betruumlger eingestuft
Beispiele Fehler 2 Art (auch bdquofalse negativeldquo) ndash echte Krankheit nicht erkannt ndash neuen Teilchens nicht gefunden obwohl in Daten vorhanden ndash Betruumlger nicht erkannt und Ware auf Rechnung ausgeliefert
Wahl des Signifkanzniveaus haumlngt auch davon ab welcher Fehler als schlimmer erachtet wird ndash Wiss Ruhm vs Laumlcherlichkeit ndash falsche vs unterlassene Behandlung ndash Kunde oder Ware verloren
1-β nennt man dieTeststaumlrke gebr auch Trennschaumlrfe Maumlchtigkeit (engl power)
Hypothesentest Signifikanz und p-Wert
Haumlufige Missverstaumlndnisse
p-Wert ist nicht die Wahrscheinlichkeit dass die Null-Hypohthese wahroder falsch ist
p-Wert ist auch nicht die Wahrscheinlichkeit dass Messung bdquonur eine Fluktuationldquo ist
Unterscheidung Signifikanz und p-Wert
α = Wahrscheinlichkeit fuumlr Fehler 1 Art (festgelegt vor der Messung )
p = Wahrscheinlichkeit dass Werte fuumlr die Pruumlfgroumlszlige t ge t1 gemessen wuumlrden wenn die Nullhypothese wahr ist (nach der Messung von t1 )
xkcdcom
Es ist nicht unuumlblich mit nochviel kleineren Signifkanzniveaus zu arbeiten zB Teilchenphysik ~10-7
bdquoExtraordinary Claims require Extraordinary Signifcanceldquo
Beispiel Muumlnzwurf
Sie haben nach 20-maligem Wurf einer Muumlnze 15 mal Kopf und 5 mal Zahl erhalten Wie kompatibel ist die Hypothese mit diesem Ausgang der Meszligreihe
Grundlage fuumlr die statistische Analyse ist die Binomialverteilung
Berechnung des p-Werts als Summe der Wahrscheinlichkeiten fuumlr das Auftreten von Werten k ge15 mit p=05
aber AchtungBei einer Muumlnze ist eine sehr valide Annahme Uumlberlegen Sie sich genau wann sie diese Hypothese ins Wanken bringen moumlchten
bei einem Signifikanz-Niveau von α=5 wuumlrde man also die Hypothese dass die Muumlnze in Ordnung ist verwerfen
bei eine Signifikanzniveau von α=1 waumlre sie noch akzeptabel
Beispiel2 Binomial mit bdquoUntergrundldquo
Ist eine medizinische Behandlung effektiv
60 bdquospontane Heilungldquo 100 Patienten behandelt rarr
Nullhypothese (nur) le60 der Patienten geheilt (also keine positive Wirkung der Behandlung)
Alternative die Behandlung wirkt
Pruumlfgroumlszlige Zahl der geheilten Patienten
Entscheidung uumlber Wirksamkeit mit 5 Signifikanz
Grundlage ist wieder die Binomial-Verteilung
rarr
mehr als 60 + 164 49 Patienten = 69 Patienten muumlssten geheilt werden um die Wirksamkeit (statistisch) zu belegen
Zahlen sind bdquogroszligldquo erlaube mir eine Gauszligsche Naumlherung
einseitiges 5-Quantil der Gauszlig-Verteilung liegt bei μ+164 σ
kennen wir schon χsup2 - Test
Die χ2-Wahrscheinlichkeit
dient zur Quantifizierung der Qualitaumlt einer Anpassung
Aussage mit welcher Wahrscheinlichkeit ein groumlszligerer Wert von χ2 am Minimum als der tatsaumlchlich beobachtete zu erwarten waumlre
Smin die bdquogewichtete Summe der Residuenquadrateldquo am Minimum bzgl der Parameter p folgt bei Gauszlig-foumlrmig verteilten Fehlern σi
einer χ2-Verteilung mit nf = N-k Freiheitsgraden Erwartungswert ltχ2gt=nf oder ltχ2 nf gt = 1
N Messungenk Parameter
Beispiel χsup2 ndash Test auf Unabhaumlngigkeit Sind die Variablen x und y unabhaumlngig Erinnerung
fuumlr unabhaumlngige Variable ist die Verteilung f(xy) gegeben durch das Produkt der Randverteilungen
f(xy) = fx(x) middot fy(y)
Im Fall eines 2-dimensionalen Histogramms Randverteilungen sind die Histogramme von x u y
Daraus laumlsst sich ein
Test auf Unabhaumlngigkeit konstruieren
Nullhypothese
folgt unter Annahme der Nullhypothese einer χsup2-Verteilung mit Ntot ndash bx ndash by Freiheitsgraden bxy Zahl der Bins in x und y
rarr p-value of chi2-independence test 21
x und y sind also wohl nicht unabhaumlngig Script Histogrampy bzw PhyPraKitpy
Qualitaumlt der Anpassung aus Likelihood
⊖ Likelihood-Methode zur Parameteranpassung liefert zunaumlchst keine Information zur Qualitaumlt einer Anpassung
Beispiel Likelihood der Gauszligverteilung
Referenz
χ2 o
bdquofully saturated modelldquo
in fruumlheren Diskussionen hatten wir diesen Term auf andere Art zu Null diskutiert ( bdquohaumlngt ja gar nicht von den Parametern ab -kann man also weglassenldquo )
Durch geeignete bdquoNormierungldquo kann Qualitaumltsinformation auch aus der Likelihood gewonnen werden Likelihood-Verhaumlltnis
der beobachteten Daten und (geeigneter) Referenzdaten
Qualitaumlt der Anpassung binned Likelihood-Fit
Beispiel 2 Likelihood der Poisson-Verteilung
Referenz
gof = goodness of fit
Auf analoge Weise lassen sich (effiziente) Pruumlfgroumlszligen auf Basis des Likelihood-Verhaumlltnisses auch fuumlr andere Verteilungen generieren
gofPoisson
konvergiert fuumlr groszlige N t gegen χsup2 2
Script gof-testpy
Mittelwert einer Stichprobe als Pruumlfgroumlszlige
n bdquostandard-normalverteilteldquo Zufallszahlen mit Mittelwert
wenn nicht bekannt ist nutzt man die Stichprobenvarianz
die normierte Groumlszlige folgt dann nicht der Gauszligverteilung
sondern der Studentschen t-Verteilung fuumlr n-1 Freiheitsgrade
insbesondere fuumlr kleine n viel groumlszligere Auslaumlufer als Gauszlig-Verteilung
Mittelwert einer Stichprobe als Pruumlfgroumlszlige rarr t-Verteilung verwenden
Studentsche t-Verteilung
1908 vom Guiness-Mitarbeiter WS Gossetunter dem PseudonymbdquoStudentldquo veroumlffentlicht
erste Anwendung Qualitaumltssicherung bei Bier der Marke Guinness
Anwendung Studentsche t-Verteilung
Haumlufige Fragestellung haben zwei unabhaumlngige Grundgesamtheiten (mit der gleichen Varianz) den selben Mittelwert
Nullhypothese x1 = x2 t-verteilte Pruumlfgroumlszlige mit nf = n1 + n2 ndash 2 Freiheitsgraden
mit
Wie vertraumlglich sind die Mittelwerte der (Noten-)Verteilungen
Studentscher t-Test t = 089 p -Wert aus t-Verteilung p = 37 Nullhypothese wird nicht verworfen
d h Unterschied nicht signifikant
Script t-testpy
Einseitiger oder zweiseitiger Test
Nullhypothese x1 = x2
Nullhypothese x1 nicht groumlszliger x2
Nullhypothese x2 nicht groumlszliger x1
kritische Region symmetrisch
Die bdquokritische Regionldquo zum Verwerfen der Null-Hypothese haumlngt von der Null-Hypothese selbst ab
kritische Region rechts (rechtsseitiger Test)
kritische Region links (linksseitiger Test)
Wird verworfen wenn mit hoher Signifikanz x1 gt x2 oder x2 gt x1
verwerfen wenn mit hoher Signifikanz x2 gt x1
verwerfen wenn mit hoher Signifikanz x1 gt x2
weitere Testverfahren
Welch-Test als Alternative zum Studentschen t-Test
zum Vergleich empirischer Daten auf gleichen Mittelwert bei ungleichen Varianzen der Stichproben
Kolmogorov-Smirnov-Test
zum Vergleich empirischer Daten mit vorgegebener Verteilungsfunktion zB sind die Daten Gauszlig-verteilt
Alternativen Anderson-Darling- oder Cramer-von Mises-Test
F-Test
auf gleiche Varianz von Stichproben
allg Testverfahren die auf dem Likelihood-Verhaumlltnis
beruhen
Optimale Wahl der Pruumlfgroumlszlige
Neyman ndash Pearson Lemma Bester Test fuumlr einfache Hypothesen
aumlquivalent
Problem exakte Likelihood oft unbekannt Moumlglichkeiten ndash (plausiblen) Ansatz fuumlr funktionale Form verwenden
ndash Monte Carlo ndash Simulation
Im Grenzfall groszliger Stichproben gibt es asymptotische Verteilungen fuumlr r(x) auch fuumlr zusammengesetzte Hypothesen (also mit
freien aus den Daten zu bestimmenden Parametern) (Wilkssches Theorem)
Klassifizierungsprobleme in hochdimen- sionalen Variablenraumlumen sind haumlufig
ndash ist der Buchstabe ein bdquoaldquo
ndash ist das Teilchen ein Elektron oder Myon
ndash ist der Kunde ein potentieller Betruumlger
ndash Signal oder Untergrund
ndash ist die E-Mail Spam
- hellip
Ausblick Klassifizierung als Hypothesentest
Gehoumlrt ein Ereignis zu einer von zwei oder mehreren Klassen ndash Zufallsereignis beschrieben durch n Zufallsvariable x1 hellip xn
ndash Klasse k beschrieben durch PDF fk(x1 hellip xn)
x
Gehoumlrt Punkt x zu Klasse 0 oder 1 Typische bdquoMVAldquo-Methoden zur Behandlung
allg Methoden des bdquoMachine Learningldquo ndash kuumlnstliche neuronale Netze ndash verstaumlrkte Entscheidungsbaumlume ndash Support-Vektoren ndash hellip (s VL Datenanalyse im Master)
x1
x2
Suche nach neuen Phaumlnomenen
Auch die Suche nach neuen Phaumlnomenen zB in der (Teilchen-)Physik ist ein HypothesentestFrage Ist Beobachtung vertraumlglich mit der bekannten Physik
- wenn ja Ausschlussgrenze auf neues Phaumlnomen bestimmen (geht nur wenn die Alternativhypothese genau festgelegt ist ndash Aufg der Theor Physik)
- wenn nein Signifikanz der Abweichung spezifizieren (als p-Wert)
Haumlufig fuumlhrt man bdquoZaumlhlexperimenteldquo zur Suche nach einem neuen Signal durch - relevant fuumlr die Beobachtung von n Ereignissen ist die Poisson-Verteilung
Nullhypothese μ = μ0
Alternative μ = μ0 + μ1 μ1 Beitrag durch neuen Effekt
Messung Beobachtung von nobs Ereignissen aufteilen in (erwarteten) Untergrund b = μ0 und Signal s = nobs ndash bp-Wert Wahrscheinlichkeit n ge nobs falls Nullpyhothese wahr
Beispiel Entdeckung des Higgs-Bosons
Bestimmung von Grenzen aus p-Werten
Untergrundhypothese Signalhypothese
Uumlbliche Art der Darstellung Signalgroumlszlige s den man mit Signifikanzniveau von 95 ausschlieszligen kann
b muss sehr gut bekannt modelliert seinwenn man den bdquoNormalfallldquo nicht kennt kann man nicht nach Abweichungen suchen
erhaltenes Limit fuumlr130 GeV
Haumlufigkeit
erwarteter Ausschluss
Beispiel Suche nach dem Higgs-Boson am LHC Stand 2011 Hypothesentest fuumlr
verschiedene H-Massen
Higgs-Entdeckung am LHCfrac12 Jahr spaumlter 4 Juli 2012 Klare Hinweise auf die Existenz eines Higgs-Bosons
Ereignisuumlberschuss in ZZ und γγ bei ATLAS und CMS
H rarr ZZ H rarr ZZ H rarr γγ H rarr γγ
Higgs-Entdeckung statistische Analyse
Bestimmung der Signalsignifikanz durch Vergleich mit der Untergrund-Hypothese und Bestimmung des bdquolokalen p-Wertsldquo SATLAS = 59 σ () (publizierte Ergebnisse) SCMS = 50σ ()
Zeitliche Entwicklung der Signal-Signifikanz Vorlaumlufige Ergebnisse vom 4 Juli 2012 der ATLAS-Kollaboration am LHC
Signal-Signifikanz vorlaumlufige Ergebnisse vom 4 Juli 2012 der CMS-Kollaboration am LHC
() Im Jargon der Teilchenphysiker entspricht die Angabe n σ dem entsprechenden Quantil der Gauszligverteilung
Hypothesentest Prinzip
Zu testende Hypothese Null-Hypothese H0
( bdquoAlles beim Altenldquo bdquoStandardmodellldquo)
Andere Hypothesen Alternativhypothese(n) H
1 H
2 hellip
(zB Abweichung von der Norm neuer Effekt hellip )
fuumlr konkreten Test muss diese explizit formuliert werden ndash bdquoDaten folgen einer Poisson-Verteilung mit ν=30ldquo (nicht 35) ndash bdquoMeszligwerte folgen einer Poisson-Verteilung mit ν lt 70 ndash bdquoMeszligwerte folgen einer Gauszligverteilung mit μ=1ldquo (nicht 0) ndash bdquoDaten sind nicht Poisson-verteiltldquo (schwieriger da unendlich viele Alternativen moumlglich sind)
Typisches Ergebnis
Verwerfen einer oder mehrerer Hypothesen
aber Null-Hypothese kann nie bewiesen werden denn es koumlnnte eine (geringfuumlgig) bessere Alternative geben
Hypothesentest Pruumlfgroumlszlige
Startpunkt zufaumlllige Stichprobe x = ( x1 hellip xn )
Schritt 1 Definition einer Pruumlfgroumlszlige t(x) (engl bdquotest statisticldquo) zur bestmoumlglichen Unterscheidung der Hypothesen Hi
ndash t(x) im Prinzip bel Funktion von x zB Mittelwert Likelihood L( Hi | x)
ndash idealerweise ist t(x) eine skalare Groumlszlige
t(x) ist Zufallsvariable mit Wahrscheinlichkeitsdichten g(t| Hi)
Hypothesentest Signifikanzniveau
Schritt 2 Festlegung eines Kriteriums zum Verwerfen der Nullhypothese (vor der Messung) kritischer Wert t0
α Signifikanzniveau
Bedeutung Auch wenn H0 gilt ist im Bruchteil α aller Faumllle t gt t0
Hypothesentest Messung
Schritt 3 Messung liefert t = t1
Berechnung des p-Werts = Wahrscheinlicheit fuumlr t ge t1
Schritt 4 Entscheidung Nullhypothese verwerfen falls p-Wert lt α
In diesem Beispiel Nullhypothese wird nicht verworfen weil p gt α
Hypothesentest Fehlertypen
Fehler 1 Art wahre Nullhypothese wird verworfen Flaumlche α
Fehler 2 Art falsche Nullhypothese wird akzeptiert Flaumlche β
Beispiele Fehler 1 Art (auch bdquofalse positiveldquo) ndash Krankheit bei Gesundem diagnostiziert ndash falsche Entdeckung eines neuen Teilchens ndash ehrlichen Kunden als potentiellen Betruumlger eingestuft
Beispiele Fehler 2 Art (auch bdquofalse negativeldquo) ndash echte Krankheit nicht erkannt ndash neuen Teilchens nicht gefunden obwohl in Daten vorhanden ndash Betruumlger nicht erkannt und Ware auf Rechnung ausgeliefert
Wahl des Signifkanzniveaus haumlngt auch davon ab welcher Fehler als schlimmer erachtet wird ndash Wiss Ruhm vs Laumlcherlichkeit ndash falsche vs unterlassene Behandlung ndash Kunde oder Ware verloren
1-β nennt man dieTeststaumlrke gebr auch Trennschaumlrfe Maumlchtigkeit (engl power)
Hypothesentest Signifikanz und p-Wert
Haumlufige Missverstaumlndnisse
p-Wert ist nicht die Wahrscheinlichkeit dass die Null-Hypohthese wahroder falsch ist
p-Wert ist auch nicht die Wahrscheinlichkeit dass Messung bdquonur eine Fluktuationldquo ist
Unterscheidung Signifikanz und p-Wert
α = Wahrscheinlichkeit fuumlr Fehler 1 Art (festgelegt vor der Messung )
p = Wahrscheinlichkeit dass Werte fuumlr die Pruumlfgroumlszlige t ge t1 gemessen wuumlrden wenn die Nullhypothese wahr ist (nach der Messung von t1 )
xkcdcom
Es ist nicht unuumlblich mit nochviel kleineren Signifkanzniveaus zu arbeiten zB Teilchenphysik ~10-7
bdquoExtraordinary Claims require Extraordinary Signifcanceldquo
Beispiel Muumlnzwurf
Sie haben nach 20-maligem Wurf einer Muumlnze 15 mal Kopf und 5 mal Zahl erhalten Wie kompatibel ist die Hypothese mit diesem Ausgang der Meszligreihe
Grundlage fuumlr die statistische Analyse ist die Binomialverteilung
Berechnung des p-Werts als Summe der Wahrscheinlichkeiten fuumlr das Auftreten von Werten k ge15 mit p=05
aber AchtungBei einer Muumlnze ist eine sehr valide Annahme Uumlberlegen Sie sich genau wann sie diese Hypothese ins Wanken bringen moumlchten
bei einem Signifikanz-Niveau von α=5 wuumlrde man also die Hypothese dass die Muumlnze in Ordnung ist verwerfen
bei eine Signifikanzniveau von α=1 waumlre sie noch akzeptabel
Beispiel2 Binomial mit bdquoUntergrundldquo
Ist eine medizinische Behandlung effektiv
60 bdquospontane Heilungldquo 100 Patienten behandelt rarr
Nullhypothese (nur) le60 der Patienten geheilt (also keine positive Wirkung der Behandlung)
Alternative die Behandlung wirkt
Pruumlfgroumlszlige Zahl der geheilten Patienten
Entscheidung uumlber Wirksamkeit mit 5 Signifikanz
Grundlage ist wieder die Binomial-Verteilung
rarr
mehr als 60 + 164 49 Patienten = 69 Patienten muumlssten geheilt werden um die Wirksamkeit (statistisch) zu belegen
Zahlen sind bdquogroszligldquo erlaube mir eine Gauszligsche Naumlherung
einseitiges 5-Quantil der Gauszlig-Verteilung liegt bei μ+164 σ
kennen wir schon χsup2 - Test
Die χ2-Wahrscheinlichkeit
dient zur Quantifizierung der Qualitaumlt einer Anpassung
Aussage mit welcher Wahrscheinlichkeit ein groumlszligerer Wert von χ2 am Minimum als der tatsaumlchlich beobachtete zu erwarten waumlre
Smin die bdquogewichtete Summe der Residuenquadrateldquo am Minimum bzgl der Parameter p folgt bei Gauszlig-foumlrmig verteilten Fehlern σi
einer χ2-Verteilung mit nf = N-k Freiheitsgraden Erwartungswert ltχ2gt=nf oder ltχ2 nf gt = 1
N Messungenk Parameter
Beispiel χsup2 ndash Test auf Unabhaumlngigkeit Sind die Variablen x und y unabhaumlngig Erinnerung
fuumlr unabhaumlngige Variable ist die Verteilung f(xy) gegeben durch das Produkt der Randverteilungen
f(xy) = fx(x) middot fy(y)
Im Fall eines 2-dimensionalen Histogramms Randverteilungen sind die Histogramme von x u y
Daraus laumlsst sich ein
Test auf Unabhaumlngigkeit konstruieren
Nullhypothese
folgt unter Annahme der Nullhypothese einer χsup2-Verteilung mit Ntot ndash bx ndash by Freiheitsgraden bxy Zahl der Bins in x und y
rarr p-value of chi2-independence test 21
x und y sind also wohl nicht unabhaumlngig Script Histogrampy bzw PhyPraKitpy
Qualitaumlt der Anpassung aus Likelihood
⊖ Likelihood-Methode zur Parameteranpassung liefert zunaumlchst keine Information zur Qualitaumlt einer Anpassung
Beispiel Likelihood der Gauszligverteilung
Referenz
χ2 o
bdquofully saturated modelldquo
in fruumlheren Diskussionen hatten wir diesen Term auf andere Art zu Null diskutiert ( bdquohaumlngt ja gar nicht von den Parametern ab -kann man also weglassenldquo )
Durch geeignete bdquoNormierungldquo kann Qualitaumltsinformation auch aus der Likelihood gewonnen werden Likelihood-Verhaumlltnis
der beobachteten Daten und (geeigneter) Referenzdaten
Qualitaumlt der Anpassung binned Likelihood-Fit
Beispiel 2 Likelihood der Poisson-Verteilung
Referenz
gof = goodness of fit
Auf analoge Weise lassen sich (effiziente) Pruumlfgroumlszligen auf Basis des Likelihood-Verhaumlltnisses auch fuumlr andere Verteilungen generieren
gofPoisson
konvergiert fuumlr groszlige N t gegen χsup2 2
Script gof-testpy
Mittelwert einer Stichprobe als Pruumlfgroumlszlige
n bdquostandard-normalverteilteldquo Zufallszahlen mit Mittelwert
wenn nicht bekannt ist nutzt man die Stichprobenvarianz
die normierte Groumlszlige folgt dann nicht der Gauszligverteilung
sondern der Studentschen t-Verteilung fuumlr n-1 Freiheitsgrade
insbesondere fuumlr kleine n viel groumlszligere Auslaumlufer als Gauszlig-Verteilung
Mittelwert einer Stichprobe als Pruumlfgroumlszlige rarr t-Verteilung verwenden
Studentsche t-Verteilung
1908 vom Guiness-Mitarbeiter WS Gossetunter dem PseudonymbdquoStudentldquo veroumlffentlicht
erste Anwendung Qualitaumltssicherung bei Bier der Marke Guinness
Anwendung Studentsche t-Verteilung
Haumlufige Fragestellung haben zwei unabhaumlngige Grundgesamtheiten (mit der gleichen Varianz) den selben Mittelwert
Nullhypothese x1 = x2 t-verteilte Pruumlfgroumlszlige mit nf = n1 + n2 ndash 2 Freiheitsgraden
mit
Wie vertraumlglich sind die Mittelwerte der (Noten-)Verteilungen
Studentscher t-Test t = 089 p -Wert aus t-Verteilung p = 37 Nullhypothese wird nicht verworfen
d h Unterschied nicht signifikant
Script t-testpy
Einseitiger oder zweiseitiger Test
Nullhypothese x1 = x2
Nullhypothese x1 nicht groumlszliger x2
Nullhypothese x2 nicht groumlszliger x1
kritische Region symmetrisch
Die bdquokritische Regionldquo zum Verwerfen der Null-Hypothese haumlngt von der Null-Hypothese selbst ab
kritische Region rechts (rechtsseitiger Test)
kritische Region links (linksseitiger Test)
Wird verworfen wenn mit hoher Signifikanz x1 gt x2 oder x2 gt x1
verwerfen wenn mit hoher Signifikanz x2 gt x1
verwerfen wenn mit hoher Signifikanz x1 gt x2
weitere Testverfahren
Welch-Test als Alternative zum Studentschen t-Test
zum Vergleich empirischer Daten auf gleichen Mittelwert bei ungleichen Varianzen der Stichproben
Kolmogorov-Smirnov-Test
zum Vergleich empirischer Daten mit vorgegebener Verteilungsfunktion zB sind die Daten Gauszlig-verteilt
Alternativen Anderson-Darling- oder Cramer-von Mises-Test
F-Test
auf gleiche Varianz von Stichproben
allg Testverfahren die auf dem Likelihood-Verhaumlltnis
beruhen
Optimale Wahl der Pruumlfgroumlszlige
Neyman ndash Pearson Lemma Bester Test fuumlr einfache Hypothesen
aumlquivalent
Problem exakte Likelihood oft unbekannt Moumlglichkeiten ndash (plausiblen) Ansatz fuumlr funktionale Form verwenden
ndash Monte Carlo ndash Simulation
Im Grenzfall groszliger Stichproben gibt es asymptotische Verteilungen fuumlr r(x) auch fuumlr zusammengesetzte Hypothesen (also mit
freien aus den Daten zu bestimmenden Parametern) (Wilkssches Theorem)
Klassifizierungsprobleme in hochdimen- sionalen Variablenraumlumen sind haumlufig
ndash ist der Buchstabe ein bdquoaldquo
ndash ist das Teilchen ein Elektron oder Myon
ndash ist der Kunde ein potentieller Betruumlger
ndash Signal oder Untergrund
ndash ist die E-Mail Spam
- hellip
Ausblick Klassifizierung als Hypothesentest
Gehoumlrt ein Ereignis zu einer von zwei oder mehreren Klassen ndash Zufallsereignis beschrieben durch n Zufallsvariable x1 hellip xn
ndash Klasse k beschrieben durch PDF fk(x1 hellip xn)
x
Gehoumlrt Punkt x zu Klasse 0 oder 1 Typische bdquoMVAldquo-Methoden zur Behandlung
allg Methoden des bdquoMachine Learningldquo ndash kuumlnstliche neuronale Netze ndash verstaumlrkte Entscheidungsbaumlume ndash Support-Vektoren ndash hellip (s VL Datenanalyse im Master)
x1
x2
Suche nach neuen Phaumlnomenen
Auch die Suche nach neuen Phaumlnomenen zB in der (Teilchen-)Physik ist ein HypothesentestFrage Ist Beobachtung vertraumlglich mit der bekannten Physik
- wenn ja Ausschlussgrenze auf neues Phaumlnomen bestimmen (geht nur wenn die Alternativhypothese genau festgelegt ist ndash Aufg der Theor Physik)
- wenn nein Signifikanz der Abweichung spezifizieren (als p-Wert)
Haumlufig fuumlhrt man bdquoZaumlhlexperimenteldquo zur Suche nach einem neuen Signal durch - relevant fuumlr die Beobachtung von n Ereignissen ist die Poisson-Verteilung
Nullhypothese μ = μ0
Alternative μ = μ0 + μ1 μ1 Beitrag durch neuen Effekt
Messung Beobachtung von nobs Ereignissen aufteilen in (erwarteten) Untergrund b = μ0 und Signal s = nobs ndash bp-Wert Wahrscheinlichkeit n ge nobs falls Nullpyhothese wahr
Beispiel Entdeckung des Higgs-Bosons
Bestimmung von Grenzen aus p-Werten
Untergrundhypothese Signalhypothese
Uumlbliche Art der Darstellung Signalgroumlszlige s den man mit Signifikanzniveau von 95 ausschlieszligen kann
b muss sehr gut bekannt modelliert seinwenn man den bdquoNormalfallldquo nicht kennt kann man nicht nach Abweichungen suchen
erhaltenes Limit fuumlr130 GeV
Haumlufigkeit
erwarteter Ausschluss
Beispiel Suche nach dem Higgs-Boson am LHC Stand 2011 Hypothesentest fuumlr
verschiedene H-Massen
Higgs-Entdeckung am LHCfrac12 Jahr spaumlter 4 Juli 2012 Klare Hinweise auf die Existenz eines Higgs-Bosons
Ereignisuumlberschuss in ZZ und γγ bei ATLAS und CMS
H rarr ZZ H rarr ZZ H rarr γγ H rarr γγ
Higgs-Entdeckung statistische Analyse
Bestimmung der Signalsignifikanz durch Vergleich mit der Untergrund-Hypothese und Bestimmung des bdquolokalen p-Wertsldquo SATLAS = 59 σ () (publizierte Ergebnisse) SCMS = 50σ ()
Zeitliche Entwicklung der Signal-Signifikanz Vorlaumlufige Ergebnisse vom 4 Juli 2012 der ATLAS-Kollaboration am LHC
Signal-Signifikanz vorlaumlufige Ergebnisse vom 4 Juli 2012 der CMS-Kollaboration am LHC
() Im Jargon der Teilchenphysiker entspricht die Angabe n σ dem entsprechenden Quantil der Gauszligverteilung
Hypothesentest Pruumlfgroumlszlige
Startpunkt zufaumlllige Stichprobe x = ( x1 hellip xn )
Schritt 1 Definition einer Pruumlfgroumlszlige t(x) (engl bdquotest statisticldquo) zur bestmoumlglichen Unterscheidung der Hypothesen Hi
ndash t(x) im Prinzip bel Funktion von x zB Mittelwert Likelihood L( Hi | x)
ndash idealerweise ist t(x) eine skalare Groumlszlige
t(x) ist Zufallsvariable mit Wahrscheinlichkeitsdichten g(t| Hi)
Hypothesentest Signifikanzniveau
Schritt 2 Festlegung eines Kriteriums zum Verwerfen der Nullhypothese (vor der Messung) kritischer Wert t0
α Signifikanzniveau
Bedeutung Auch wenn H0 gilt ist im Bruchteil α aller Faumllle t gt t0
Hypothesentest Messung
Schritt 3 Messung liefert t = t1
Berechnung des p-Werts = Wahrscheinlicheit fuumlr t ge t1
Schritt 4 Entscheidung Nullhypothese verwerfen falls p-Wert lt α
In diesem Beispiel Nullhypothese wird nicht verworfen weil p gt α
Hypothesentest Fehlertypen
Fehler 1 Art wahre Nullhypothese wird verworfen Flaumlche α
Fehler 2 Art falsche Nullhypothese wird akzeptiert Flaumlche β
Beispiele Fehler 1 Art (auch bdquofalse positiveldquo) ndash Krankheit bei Gesundem diagnostiziert ndash falsche Entdeckung eines neuen Teilchens ndash ehrlichen Kunden als potentiellen Betruumlger eingestuft
Beispiele Fehler 2 Art (auch bdquofalse negativeldquo) ndash echte Krankheit nicht erkannt ndash neuen Teilchens nicht gefunden obwohl in Daten vorhanden ndash Betruumlger nicht erkannt und Ware auf Rechnung ausgeliefert
Wahl des Signifkanzniveaus haumlngt auch davon ab welcher Fehler als schlimmer erachtet wird ndash Wiss Ruhm vs Laumlcherlichkeit ndash falsche vs unterlassene Behandlung ndash Kunde oder Ware verloren
1-β nennt man dieTeststaumlrke gebr auch Trennschaumlrfe Maumlchtigkeit (engl power)
Hypothesentest Signifikanz und p-Wert
Haumlufige Missverstaumlndnisse
p-Wert ist nicht die Wahrscheinlichkeit dass die Null-Hypohthese wahroder falsch ist
p-Wert ist auch nicht die Wahrscheinlichkeit dass Messung bdquonur eine Fluktuationldquo ist
Unterscheidung Signifikanz und p-Wert
α = Wahrscheinlichkeit fuumlr Fehler 1 Art (festgelegt vor der Messung )
p = Wahrscheinlichkeit dass Werte fuumlr die Pruumlfgroumlszlige t ge t1 gemessen wuumlrden wenn die Nullhypothese wahr ist (nach der Messung von t1 )
xkcdcom
Es ist nicht unuumlblich mit nochviel kleineren Signifkanzniveaus zu arbeiten zB Teilchenphysik ~10-7
bdquoExtraordinary Claims require Extraordinary Signifcanceldquo
Beispiel Muumlnzwurf
Sie haben nach 20-maligem Wurf einer Muumlnze 15 mal Kopf und 5 mal Zahl erhalten Wie kompatibel ist die Hypothese mit diesem Ausgang der Meszligreihe
Grundlage fuumlr die statistische Analyse ist die Binomialverteilung
Berechnung des p-Werts als Summe der Wahrscheinlichkeiten fuumlr das Auftreten von Werten k ge15 mit p=05
aber AchtungBei einer Muumlnze ist eine sehr valide Annahme Uumlberlegen Sie sich genau wann sie diese Hypothese ins Wanken bringen moumlchten
bei einem Signifikanz-Niveau von α=5 wuumlrde man also die Hypothese dass die Muumlnze in Ordnung ist verwerfen
bei eine Signifikanzniveau von α=1 waumlre sie noch akzeptabel
Beispiel2 Binomial mit bdquoUntergrundldquo
Ist eine medizinische Behandlung effektiv
60 bdquospontane Heilungldquo 100 Patienten behandelt rarr
Nullhypothese (nur) le60 der Patienten geheilt (also keine positive Wirkung der Behandlung)
Alternative die Behandlung wirkt
Pruumlfgroumlszlige Zahl der geheilten Patienten
Entscheidung uumlber Wirksamkeit mit 5 Signifikanz
Grundlage ist wieder die Binomial-Verteilung
rarr
mehr als 60 + 164 49 Patienten = 69 Patienten muumlssten geheilt werden um die Wirksamkeit (statistisch) zu belegen
Zahlen sind bdquogroszligldquo erlaube mir eine Gauszligsche Naumlherung
einseitiges 5-Quantil der Gauszlig-Verteilung liegt bei μ+164 σ
kennen wir schon χsup2 - Test
Die χ2-Wahrscheinlichkeit
dient zur Quantifizierung der Qualitaumlt einer Anpassung
Aussage mit welcher Wahrscheinlichkeit ein groumlszligerer Wert von χ2 am Minimum als der tatsaumlchlich beobachtete zu erwarten waumlre
Smin die bdquogewichtete Summe der Residuenquadrateldquo am Minimum bzgl der Parameter p folgt bei Gauszlig-foumlrmig verteilten Fehlern σi
einer χ2-Verteilung mit nf = N-k Freiheitsgraden Erwartungswert ltχ2gt=nf oder ltχ2 nf gt = 1
N Messungenk Parameter
Beispiel χsup2 ndash Test auf Unabhaumlngigkeit Sind die Variablen x und y unabhaumlngig Erinnerung
fuumlr unabhaumlngige Variable ist die Verteilung f(xy) gegeben durch das Produkt der Randverteilungen
f(xy) = fx(x) middot fy(y)
Im Fall eines 2-dimensionalen Histogramms Randverteilungen sind die Histogramme von x u y
Daraus laumlsst sich ein
Test auf Unabhaumlngigkeit konstruieren
Nullhypothese
folgt unter Annahme der Nullhypothese einer χsup2-Verteilung mit Ntot ndash bx ndash by Freiheitsgraden bxy Zahl der Bins in x und y
rarr p-value of chi2-independence test 21
x und y sind also wohl nicht unabhaumlngig Script Histogrampy bzw PhyPraKitpy
Qualitaumlt der Anpassung aus Likelihood
⊖ Likelihood-Methode zur Parameteranpassung liefert zunaumlchst keine Information zur Qualitaumlt einer Anpassung
Beispiel Likelihood der Gauszligverteilung
Referenz
χ2 o
bdquofully saturated modelldquo
in fruumlheren Diskussionen hatten wir diesen Term auf andere Art zu Null diskutiert ( bdquohaumlngt ja gar nicht von den Parametern ab -kann man also weglassenldquo )
Durch geeignete bdquoNormierungldquo kann Qualitaumltsinformation auch aus der Likelihood gewonnen werden Likelihood-Verhaumlltnis
der beobachteten Daten und (geeigneter) Referenzdaten
Qualitaumlt der Anpassung binned Likelihood-Fit
Beispiel 2 Likelihood der Poisson-Verteilung
Referenz
gof = goodness of fit
Auf analoge Weise lassen sich (effiziente) Pruumlfgroumlszligen auf Basis des Likelihood-Verhaumlltnisses auch fuumlr andere Verteilungen generieren
gofPoisson
konvergiert fuumlr groszlige N t gegen χsup2 2
Script gof-testpy
Mittelwert einer Stichprobe als Pruumlfgroumlszlige
n bdquostandard-normalverteilteldquo Zufallszahlen mit Mittelwert
wenn nicht bekannt ist nutzt man die Stichprobenvarianz
die normierte Groumlszlige folgt dann nicht der Gauszligverteilung
sondern der Studentschen t-Verteilung fuumlr n-1 Freiheitsgrade
insbesondere fuumlr kleine n viel groumlszligere Auslaumlufer als Gauszlig-Verteilung
Mittelwert einer Stichprobe als Pruumlfgroumlszlige rarr t-Verteilung verwenden
Studentsche t-Verteilung
1908 vom Guiness-Mitarbeiter WS Gossetunter dem PseudonymbdquoStudentldquo veroumlffentlicht
erste Anwendung Qualitaumltssicherung bei Bier der Marke Guinness
Anwendung Studentsche t-Verteilung
Haumlufige Fragestellung haben zwei unabhaumlngige Grundgesamtheiten (mit der gleichen Varianz) den selben Mittelwert
Nullhypothese x1 = x2 t-verteilte Pruumlfgroumlszlige mit nf = n1 + n2 ndash 2 Freiheitsgraden
mit
Wie vertraumlglich sind die Mittelwerte der (Noten-)Verteilungen
Studentscher t-Test t = 089 p -Wert aus t-Verteilung p = 37 Nullhypothese wird nicht verworfen
d h Unterschied nicht signifikant
Script t-testpy
Einseitiger oder zweiseitiger Test
Nullhypothese x1 = x2
Nullhypothese x1 nicht groumlszliger x2
Nullhypothese x2 nicht groumlszliger x1
kritische Region symmetrisch
Die bdquokritische Regionldquo zum Verwerfen der Null-Hypothese haumlngt von der Null-Hypothese selbst ab
kritische Region rechts (rechtsseitiger Test)
kritische Region links (linksseitiger Test)
Wird verworfen wenn mit hoher Signifikanz x1 gt x2 oder x2 gt x1
verwerfen wenn mit hoher Signifikanz x2 gt x1
verwerfen wenn mit hoher Signifikanz x1 gt x2
weitere Testverfahren
Welch-Test als Alternative zum Studentschen t-Test
zum Vergleich empirischer Daten auf gleichen Mittelwert bei ungleichen Varianzen der Stichproben
Kolmogorov-Smirnov-Test
zum Vergleich empirischer Daten mit vorgegebener Verteilungsfunktion zB sind die Daten Gauszlig-verteilt
Alternativen Anderson-Darling- oder Cramer-von Mises-Test
F-Test
auf gleiche Varianz von Stichproben
allg Testverfahren die auf dem Likelihood-Verhaumlltnis
beruhen
Optimale Wahl der Pruumlfgroumlszlige
Neyman ndash Pearson Lemma Bester Test fuumlr einfache Hypothesen
aumlquivalent
Problem exakte Likelihood oft unbekannt Moumlglichkeiten ndash (plausiblen) Ansatz fuumlr funktionale Form verwenden
ndash Monte Carlo ndash Simulation
Im Grenzfall groszliger Stichproben gibt es asymptotische Verteilungen fuumlr r(x) auch fuumlr zusammengesetzte Hypothesen (also mit
freien aus den Daten zu bestimmenden Parametern) (Wilkssches Theorem)
Klassifizierungsprobleme in hochdimen- sionalen Variablenraumlumen sind haumlufig
ndash ist der Buchstabe ein bdquoaldquo
ndash ist das Teilchen ein Elektron oder Myon
ndash ist der Kunde ein potentieller Betruumlger
ndash Signal oder Untergrund
ndash ist die E-Mail Spam
- hellip
Ausblick Klassifizierung als Hypothesentest
Gehoumlrt ein Ereignis zu einer von zwei oder mehreren Klassen ndash Zufallsereignis beschrieben durch n Zufallsvariable x1 hellip xn
ndash Klasse k beschrieben durch PDF fk(x1 hellip xn)
x
Gehoumlrt Punkt x zu Klasse 0 oder 1 Typische bdquoMVAldquo-Methoden zur Behandlung
allg Methoden des bdquoMachine Learningldquo ndash kuumlnstliche neuronale Netze ndash verstaumlrkte Entscheidungsbaumlume ndash Support-Vektoren ndash hellip (s VL Datenanalyse im Master)
x1
x2
Suche nach neuen Phaumlnomenen
Auch die Suche nach neuen Phaumlnomenen zB in der (Teilchen-)Physik ist ein HypothesentestFrage Ist Beobachtung vertraumlglich mit der bekannten Physik
- wenn ja Ausschlussgrenze auf neues Phaumlnomen bestimmen (geht nur wenn die Alternativhypothese genau festgelegt ist ndash Aufg der Theor Physik)
- wenn nein Signifikanz der Abweichung spezifizieren (als p-Wert)
Haumlufig fuumlhrt man bdquoZaumlhlexperimenteldquo zur Suche nach einem neuen Signal durch - relevant fuumlr die Beobachtung von n Ereignissen ist die Poisson-Verteilung
Nullhypothese μ = μ0
Alternative μ = μ0 + μ1 μ1 Beitrag durch neuen Effekt
Messung Beobachtung von nobs Ereignissen aufteilen in (erwarteten) Untergrund b = μ0 und Signal s = nobs ndash bp-Wert Wahrscheinlichkeit n ge nobs falls Nullpyhothese wahr
Beispiel Entdeckung des Higgs-Bosons
Bestimmung von Grenzen aus p-Werten
Untergrundhypothese Signalhypothese
Uumlbliche Art der Darstellung Signalgroumlszlige s den man mit Signifikanzniveau von 95 ausschlieszligen kann
b muss sehr gut bekannt modelliert seinwenn man den bdquoNormalfallldquo nicht kennt kann man nicht nach Abweichungen suchen
erhaltenes Limit fuumlr130 GeV
Haumlufigkeit
erwarteter Ausschluss
Beispiel Suche nach dem Higgs-Boson am LHC Stand 2011 Hypothesentest fuumlr
verschiedene H-Massen
Higgs-Entdeckung am LHCfrac12 Jahr spaumlter 4 Juli 2012 Klare Hinweise auf die Existenz eines Higgs-Bosons
Ereignisuumlberschuss in ZZ und γγ bei ATLAS und CMS
H rarr ZZ H rarr ZZ H rarr γγ H rarr γγ
Higgs-Entdeckung statistische Analyse
Bestimmung der Signalsignifikanz durch Vergleich mit der Untergrund-Hypothese und Bestimmung des bdquolokalen p-Wertsldquo SATLAS = 59 σ () (publizierte Ergebnisse) SCMS = 50σ ()
Zeitliche Entwicklung der Signal-Signifikanz Vorlaumlufige Ergebnisse vom 4 Juli 2012 der ATLAS-Kollaboration am LHC
Signal-Signifikanz vorlaumlufige Ergebnisse vom 4 Juli 2012 der CMS-Kollaboration am LHC
() Im Jargon der Teilchenphysiker entspricht die Angabe n σ dem entsprechenden Quantil der Gauszligverteilung
Hypothesentest Signifikanzniveau
Schritt 2 Festlegung eines Kriteriums zum Verwerfen der Nullhypothese (vor der Messung) kritischer Wert t0
α Signifikanzniveau
Bedeutung Auch wenn H0 gilt ist im Bruchteil α aller Faumllle t gt t0
Hypothesentest Messung
Schritt 3 Messung liefert t = t1
Berechnung des p-Werts = Wahrscheinlicheit fuumlr t ge t1
Schritt 4 Entscheidung Nullhypothese verwerfen falls p-Wert lt α
In diesem Beispiel Nullhypothese wird nicht verworfen weil p gt α
Hypothesentest Fehlertypen
Fehler 1 Art wahre Nullhypothese wird verworfen Flaumlche α
Fehler 2 Art falsche Nullhypothese wird akzeptiert Flaumlche β
Beispiele Fehler 1 Art (auch bdquofalse positiveldquo) ndash Krankheit bei Gesundem diagnostiziert ndash falsche Entdeckung eines neuen Teilchens ndash ehrlichen Kunden als potentiellen Betruumlger eingestuft
Beispiele Fehler 2 Art (auch bdquofalse negativeldquo) ndash echte Krankheit nicht erkannt ndash neuen Teilchens nicht gefunden obwohl in Daten vorhanden ndash Betruumlger nicht erkannt und Ware auf Rechnung ausgeliefert
Wahl des Signifkanzniveaus haumlngt auch davon ab welcher Fehler als schlimmer erachtet wird ndash Wiss Ruhm vs Laumlcherlichkeit ndash falsche vs unterlassene Behandlung ndash Kunde oder Ware verloren
1-β nennt man dieTeststaumlrke gebr auch Trennschaumlrfe Maumlchtigkeit (engl power)
Hypothesentest Signifikanz und p-Wert
Haumlufige Missverstaumlndnisse
p-Wert ist nicht die Wahrscheinlichkeit dass die Null-Hypohthese wahroder falsch ist
p-Wert ist auch nicht die Wahrscheinlichkeit dass Messung bdquonur eine Fluktuationldquo ist
Unterscheidung Signifikanz und p-Wert
α = Wahrscheinlichkeit fuumlr Fehler 1 Art (festgelegt vor der Messung )
p = Wahrscheinlichkeit dass Werte fuumlr die Pruumlfgroumlszlige t ge t1 gemessen wuumlrden wenn die Nullhypothese wahr ist (nach der Messung von t1 )
xkcdcom
Es ist nicht unuumlblich mit nochviel kleineren Signifkanzniveaus zu arbeiten zB Teilchenphysik ~10-7
bdquoExtraordinary Claims require Extraordinary Signifcanceldquo
Beispiel Muumlnzwurf
Sie haben nach 20-maligem Wurf einer Muumlnze 15 mal Kopf und 5 mal Zahl erhalten Wie kompatibel ist die Hypothese mit diesem Ausgang der Meszligreihe
Grundlage fuumlr die statistische Analyse ist die Binomialverteilung
Berechnung des p-Werts als Summe der Wahrscheinlichkeiten fuumlr das Auftreten von Werten k ge15 mit p=05
aber AchtungBei einer Muumlnze ist eine sehr valide Annahme Uumlberlegen Sie sich genau wann sie diese Hypothese ins Wanken bringen moumlchten
bei einem Signifikanz-Niveau von α=5 wuumlrde man also die Hypothese dass die Muumlnze in Ordnung ist verwerfen
bei eine Signifikanzniveau von α=1 waumlre sie noch akzeptabel
Beispiel2 Binomial mit bdquoUntergrundldquo
Ist eine medizinische Behandlung effektiv
60 bdquospontane Heilungldquo 100 Patienten behandelt rarr
Nullhypothese (nur) le60 der Patienten geheilt (also keine positive Wirkung der Behandlung)
Alternative die Behandlung wirkt
Pruumlfgroumlszlige Zahl der geheilten Patienten
Entscheidung uumlber Wirksamkeit mit 5 Signifikanz
Grundlage ist wieder die Binomial-Verteilung
rarr
mehr als 60 + 164 49 Patienten = 69 Patienten muumlssten geheilt werden um die Wirksamkeit (statistisch) zu belegen
Zahlen sind bdquogroszligldquo erlaube mir eine Gauszligsche Naumlherung
einseitiges 5-Quantil der Gauszlig-Verteilung liegt bei μ+164 σ
kennen wir schon χsup2 - Test
Die χ2-Wahrscheinlichkeit
dient zur Quantifizierung der Qualitaumlt einer Anpassung
Aussage mit welcher Wahrscheinlichkeit ein groumlszligerer Wert von χ2 am Minimum als der tatsaumlchlich beobachtete zu erwarten waumlre
Smin die bdquogewichtete Summe der Residuenquadrateldquo am Minimum bzgl der Parameter p folgt bei Gauszlig-foumlrmig verteilten Fehlern σi
einer χ2-Verteilung mit nf = N-k Freiheitsgraden Erwartungswert ltχ2gt=nf oder ltχ2 nf gt = 1
N Messungenk Parameter
Beispiel χsup2 ndash Test auf Unabhaumlngigkeit Sind die Variablen x und y unabhaumlngig Erinnerung
fuumlr unabhaumlngige Variable ist die Verteilung f(xy) gegeben durch das Produkt der Randverteilungen
f(xy) = fx(x) middot fy(y)
Im Fall eines 2-dimensionalen Histogramms Randverteilungen sind die Histogramme von x u y
Daraus laumlsst sich ein
Test auf Unabhaumlngigkeit konstruieren
Nullhypothese
folgt unter Annahme der Nullhypothese einer χsup2-Verteilung mit Ntot ndash bx ndash by Freiheitsgraden bxy Zahl der Bins in x und y
rarr p-value of chi2-independence test 21
x und y sind also wohl nicht unabhaumlngig Script Histogrampy bzw PhyPraKitpy
Qualitaumlt der Anpassung aus Likelihood
⊖ Likelihood-Methode zur Parameteranpassung liefert zunaumlchst keine Information zur Qualitaumlt einer Anpassung
Beispiel Likelihood der Gauszligverteilung
Referenz
χ2 o
bdquofully saturated modelldquo
in fruumlheren Diskussionen hatten wir diesen Term auf andere Art zu Null diskutiert ( bdquohaumlngt ja gar nicht von den Parametern ab -kann man also weglassenldquo )
Durch geeignete bdquoNormierungldquo kann Qualitaumltsinformation auch aus der Likelihood gewonnen werden Likelihood-Verhaumlltnis
der beobachteten Daten und (geeigneter) Referenzdaten
Qualitaumlt der Anpassung binned Likelihood-Fit
Beispiel 2 Likelihood der Poisson-Verteilung
Referenz
gof = goodness of fit
Auf analoge Weise lassen sich (effiziente) Pruumlfgroumlszligen auf Basis des Likelihood-Verhaumlltnisses auch fuumlr andere Verteilungen generieren
gofPoisson
konvergiert fuumlr groszlige N t gegen χsup2 2
Script gof-testpy
Mittelwert einer Stichprobe als Pruumlfgroumlszlige
n bdquostandard-normalverteilteldquo Zufallszahlen mit Mittelwert
wenn nicht bekannt ist nutzt man die Stichprobenvarianz
die normierte Groumlszlige folgt dann nicht der Gauszligverteilung
sondern der Studentschen t-Verteilung fuumlr n-1 Freiheitsgrade
insbesondere fuumlr kleine n viel groumlszligere Auslaumlufer als Gauszlig-Verteilung
Mittelwert einer Stichprobe als Pruumlfgroumlszlige rarr t-Verteilung verwenden
Studentsche t-Verteilung
1908 vom Guiness-Mitarbeiter WS Gossetunter dem PseudonymbdquoStudentldquo veroumlffentlicht
erste Anwendung Qualitaumltssicherung bei Bier der Marke Guinness
Anwendung Studentsche t-Verteilung
Haumlufige Fragestellung haben zwei unabhaumlngige Grundgesamtheiten (mit der gleichen Varianz) den selben Mittelwert
Nullhypothese x1 = x2 t-verteilte Pruumlfgroumlszlige mit nf = n1 + n2 ndash 2 Freiheitsgraden
mit
Wie vertraumlglich sind die Mittelwerte der (Noten-)Verteilungen
Studentscher t-Test t = 089 p -Wert aus t-Verteilung p = 37 Nullhypothese wird nicht verworfen
d h Unterschied nicht signifikant
Script t-testpy
Einseitiger oder zweiseitiger Test
Nullhypothese x1 = x2
Nullhypothese x1 nicht groumlszliger x2
Nullhypothese x2 nicht groumlszliger x1
kritische Region symmetrisch
Die bdquokritische Regionldquo zum Verwerfen der Null-Hypothese haumlngt von der Null-Hypothese selbst ab
kritische Region rechts (rechtsseitiger Test)
kritische Region links (linksseitiger Test)
Wird verworfen wenn mit hoher Signifikanz x1 gt x2 oder x2 gt x1
verwerfen wenn mit hoher Signifikanz x2 gt x1
verwerfen wenn mit hoher Signifikanz x1 gt x2
weitere Testverfahren
Welch-Test als Alternative zum Studentschen t-Test
zum Vergleich empirischer Daten auf gleichen Mittelwert bei ungleichen Varianzen der Stichproben
Kolmogorov-Smirnov-Test
zum Vergleich empirischer Daten mit vorgegebener Verteilungsfunktion zB sind die Daten Gauszlig-verteilt
Alternativen Anderson-Darling- oder Cramer-von Mises-Test
F-Test
auf gleiche Varianz von Stichproben
allg Testverfahren die auf dem Likelihood-Verhaumlltnis
beruhen
Optimale Wahl der Pruumlfgroumlszlige
Neyman ndash Pearson Lemma Bester Test fuumlr einfache Hypothesen
aumlquivalent
Problem exakte Likelihood oft unbekannt Moumlglichkeiten ndash (plausiblen) Ansatz fuumlr funktionale Form verwenden
ndash Monte Carlo ndash Simulation
Im Grenzfall groszliger Stichproben gibt es asymptotische Verteilungen fuumlr r(x) auch fuumlr zusammengesetzte Hypothesen (also mit
freien aus den Daten zu bestimmenden Parametern) (Wilkssches Theorem)
Klassifizierungsprobleme in hochdimen- sionalen Variablenraumlumen sind haumlufig
ndash ist der Buchstabe ein bdquoaldquo
ndash ist das Teilchen ein Elektron oder Myon
ndash ist der Kunde ein potentieller Betruumlger
ndash Signal oder Untergrund
ndash ist die E-Mail Spam
- hellip
Ausblick Klassifizierung als Hypothesentest
Gehoumlrt ein Ereignis zu einer von zwei oder mehreren Klassen ndash Zufallsereignis beschrieben durch n Zufallsvariable x1 hellip xn
ndash Klasse k beschrieben durch PDF fk(x1 hellip xn)
x
Gehoumlrt Punkt x zu Klasse 0 oder 1 Typische bdquoMVAldquo-Methoden zur Behandlung
allg Methoden des bdquoMachine Learningldquo ndash kuumlnstliche neuronale Netze ndash verstaumlrkte Entscheidungsbaumlume ndash Support-Vektoren ndash hellip (s VL Datenanalyse im Master)
x1
x2
Suche nach neuen Phaumlnomenen
Auch die Suche nach neuen Phaumlnomenen zB in der (Teilchen-)Physik ist ein HypothesentestFrage Ist Beobachtung vertraumlglich mit der bekannten Physik
- wenn ja Ausschlussgrenze auf neues Phaumlnomen bestimmen (geht nur wenn die Alternativhypothese genau festgelegt ist ndash Aufg der Theor Physik)
- wenn nein Signifikanz der Abweichung spezifizieren (als p-Wert)
Haumlufig fuumlhrt man bdquoZaumlhlexperimenteldquo zur Suche nach einem neuen Signal durch - relevant fuumlr die Beobachtung von n Ereignissen ist die Poisson-Verteilung
Nullhypothese μ = μ0
Alternative μ = μ0 + μ1 μ1 Beitrag durch neuen Effekt
Messung Beobachtung von nobs Ereignissen aufteilen in (erwarteten) Untergrund b = μ0 und Signal s = nobs ndash bp-Wert Wahrscheinlichkeit n ge nobs falls Nullpyhothese wahr
Beispiel Entdeckung des Higgs-Bosons
Bestimmung von Grenzen aus p-Werten
Untergrundhypothese Signalhypothese
Uumlbliche Art der Darstellung Signalgroumlszlige s den man mit Signifikanzniveau von 95 ausschlieszligen kann
b muss sehr gut bekannt modelliert seinwenn man den bdquoNormalfallldquo nicht kennt kann man nicht nach Abweichungen suchen
erhaltenes Limit fuumlr130 GeV
Haumlufigkeit
erwarteter Ausschluss
Beispiel Suche nach dem Higgs-Boson am LHC Stand 2011 Hypothesentest fuumlr
verschiedene H-Massen
Higgs-Entdeckung am LHCfrac12 Jahr spaumlter 4 Juli 2012 Klare Hinweise auf die Existenz eines Higgs-Bosons
Ereignisuumlberschuss in ZZ und γγ bei ATLAS und CMS
H rarr ZZ H rarr ZZ H rarr γγ H rarr γγ
Higgs-Entdeckung statistische Analyse
Bestimmung der Signalsignifikanz durch Vergleich mit der Untergrund-Hypothese und Bestimmung des bdquolokalen p-Wertsldquo SATLAS = 59 σ () (publizierte Ergebnisse) SCMS = 50σ ()
Zeitliche Entwicklung der Signal-Signifikanz Vorlaumlufige Ergebnisse vom 4 Juli 2012 der ATLAS-Kollaboration am LHC
Signal-Signifikanz vorlaumlufige Ergebnisse vom 4 Juli 2012 der CMS-Kollaboration am LHC
() Im Jargon der Teilchenphysiker entspricht die Angabe n σ dem entsprechenden Quantil der Gauszligverteilung
Hypothesentest Messung
Schritt 3 Messung liefert t = t1
Berechnung des p-Werts = Wahrscheinlicheit fuumlr t ge t1
Schritt 4 Entscheidung Nullhypothese verwerfen falls p-Wert lt α
In diesem Beispiel Nullhypothese wird nicht verworfen weil p gt α
Hypothesentest Fehlertypen
Fehler 1 Art wahre Nullhypothese wird verworfen Flaumlche α
Fehler 2 Art falsche Nullhypothese wird akzeptiert Flaumlche β
Beispiele Fehler 1 Art (auch bdquofalse positiveldquo) ndash Krankheit bei Gesundem diagnostiziert ndash falsche Entdeckung eines neuen Teilchens ndash ehrlichen Kunden als potentiellen Betruumlger eingestuft
Beispiele Fehler 2 Art (auch bdquofalse negativeldquo) ndash echte Krankheit nicht erkannt ndash neuen Teilchens nicht gefunden obwohl in Daten vorhanden ndash Betruumlger nicht erkannt und Ware auf Rechnung ausgeliefert
Wahl des Signifkanzniveaus haumlngt auch davon ab welcher Fehler als schlimmer erachtet wird ndash Wiss Ruhm vs Laumlcherlichkeit ndash falsche vs unterlassene Behandlung ndash Kunde oder Ware verloren
1-β nennt man dieTeststaumlrke gebr auch Trennschaumlrfe Maumlchtigkeit (engl power)
Hypothesentest Signifikanz und p-Wert
Haumlufige Missverstaumlndnisse
p-Wert ist nicht die Wahrscheinlichkeit dass die Null-Hypohthese wahroder falsch ist
p-Wert ist auch nicht die Wahrscheinlichkeit dass Messung bdquonur eine Fluktuationldquo ist
Unterscheidung Signifikanz und p-Wert
α = Wahrscheinlichkeit fuumlr Fehler 1 Art (festgelegt vor der Messung )
p = Wahrscheinlichkeit dass Werte fuumlr die Pruumlfgroumlszlige t ge t1 gemessen wuumlrden wenn die Nullhypothese wahr ist (nach der Messung von t1 )
xkcdcom
Es ist nicht unuumlblich mit nochviel kleineren Signifkanzniveaus zu arbeiten zB Teilchenphysik ~10-7
bdquoExtraordinary Claims require Extraordinary Signifcanceldquo
Beispiel Muumlnzwurf
Sie haben nach 20-maligem Wurf einer Muumlnze 15 mal Kopf und 5 mal Zahl erhalten Wie kompatibel ist die Hypothese mit diesem Ausgang der Meszligreihe
Grundlage fuumlr die statistische Analyse ist die Binomialverteilung
Berechnung des p-Werts als Summe der Wahrscheinlichkeiten fuumlr das Auftreten von Werten k ge15 mit p=05
aber AchtungBei einer Muumlnze ist eine sehr valide Annahme Uumlberlegen Sie sich genau wann sie diese Hypothese ins Wanken bringen moumlchten
bei einem Signifikanz-Niveau von α=5 wuumlrde man also die Hypothese dass die Muumlnze in Ordnung ist verwerfen
bei eine Signifikanzniveau von α=1 waumlre sie noch akzeptabel
Beispiel2 Binomial mit bdquoUntergrundldquo
Ist eine medizinische Behandlung effektiv
60 bdquospontane Heilungldquo 100 Patienten behandelt rarr
Nullhypothese (nur) le60 der Patienten geheilt (also keine positive Wirkung der Behandlung)
Alternative die Behandlung wirkt
Pruumlfgroumlszlige Zahl der geheilten Patienten
Entscheidung uumlber Wirksamkeit mit 5 Signifikanz
Grundlage ist wieder die Binomial-Verteilung
rarr
mehr als 60 + 164 49 Patienten = 69 Patienten muumlssten geheilt werden um die Wirksamkeit (statistisch) zu belegen
Zahlen sind bdquogroszligldquo erlaube mir eine Gauszligsche Naumlherung
einseitiges 5-Quantil der Gauszlig-Verteilung liegt bei μ+164 σ
kennen wir schon χsup2 - Test
Die χ2-Wahrscheinlichkeit
dient zur Quantifizierung der Qualitaumlt einer Anpassung
Aussage mit welcher Wahrscheinlichkeit ein groumlszligerer Wert von χ2 am Minimum als der tatsaumlchlich beobachtete zu erwarten waumlre
Smin die bdquogewichtete Summe der Residuenquadrateldquo am Minimum bzgl der Parameter p folgt bei Gauszlig-foumlrmig verteilten Fehlern σi
einer χ2-Verteilung mit nf = N-k Freiheitsgraden Erwartungswert ltχ2gt=nf oder ltχ2 nf gt = 1
N Messungenk Parameter
Beispiel χsup2 ndash Test auf Unabhaumlngigkeit Sind die Variablen x und y unabhaumlngig Erinnerung
fuumlr unabhaumlngige Variable ist die Verteilung f(xy) gegeben durch das Produkt der Randverteilungen
f(xy) = fx(x) middot fy(y)
Im Fall eines 2-dimensionalen Histogramms Randverteilungen sind die Histogramme von x u y
Daraus laumlsst sich ein
Test auf Unabhaumlngigkeit konstruieren
Nullhypothese
folgt unter Annahme der Nullhypothese einer χsup2-Verteilung mit Ntot ndash bx ndash by Freiheitsgraden bxy Zahl der Bins in x und y
rarr p-value of chi2-independence test 21
x und y sind also wohl nicht unabhaumlngig Script Histogrampy bzw PhyPraKitpy
Qualitaumlt der Anpassung aus Likelihood
⊖ Likelihood-Methode zur Parameteranpassung liefert zunaumlchst keine Information zur Qualitaumlt einer Anpassung
Beispiel Likelihood der Gauszligverteilung
Referenz
χ2 o
bdquofully saturated modelldquo
in fruumlheren Diskussionen hatten wir diesen Term auf andere Art zu Null diskutiert ( bdquohaumlngt ja gar nicht von den Parametern ab -kann man also weglassenldquo )
Durch geeignete bdquoNormierungldquo kann Qualitaumltsinformation auch aus der Likelihood gewonnen werden Likelihood-Verhaumlltnis
der beobachteten Daten und (geeigneter) Referenzdaten
Qualitaumlt der Anpassung binned Likelihood-Fit
Beispiel 2 Likelihood der Poisson-Verteilung
Referenz
gof = goodness of fit
Auf analoge Weise lassen sich (effiziente) Pruumlfgroumlszligen auf Basis des Likelihood-Verhaumlltnisses auch fuumlr andere Verteilungen generieren
gofPoisson
konvergiert fuumlr groszlige N t gegen χsup2 2
Script gof-testpy
Mittelwert einer Stichprobe als Pruumlfgroumlszlige
n bdquostandard-normalverteilteldquo Zufallszahlen mit Mittelwert
wenn nicht bekannt ist nutzt man die Stichprobenvarianz
die normierte Groumlszlige folgt dann nicht der Gauszligverteilung
sondern der Studentschen t-Verteilung fuumlr n-1 Freiheitsgrade
insbesondere fuumlr kleine n viel groumlszligere Auslaumlufer als Gauszlig-Verteilung
Mittelwert einer Stichprobe als Pruumlfgroumlszlige rarr t-Verteilung verwenden
Studentsche t-Verteilung
1908 vom Guiness-Mitarbeiter WS Gossetunter dem PseudonymbdquoStudentldquo veroumlffentlicht
erste Anwendung Qualitaumltssicherung bei Bier der Marke Guinness
Anwendung Studentsche t-Verteilung
Haumlufige Fragestellung haben zwei unabhaumlngige Grundgesamtheiten (mit der gleichen Varianz) den selben Mittelwert
Nullhypothese x1 = x2 t-verteilte Pruumlfgroumlszlige mit nf = n1 + n2 ndash 2 Freiheitsgraden
mit
Wie vertraumlglich sind die Mittelwerte der (Noten-)Verteilungen
Studentscher t-Test t = 089 p -Wert aus t-Verteilung p = 37 Nullhypothese wird nicht verworfen
d h Unterschied nicht signifikant
Script t-testpy
Einseitiger oder zweiseitiger Test
Nullhypothese x1 = x2
Nullhypothese x1 nicht groumlszliger x2
Nullhypothese x2 nicht groumlszliger x1
kritische Region symmetrisch
Die bdquokritische Regionldquo zum Verwerfen der Null-Hypothese haumlngt von der Null-Hypothese selbst ab
kritische Region rechts (rechtsseitiger Test)
kritische Region links (linksseitiger Test)
Wird verworfen wenn mit hoher Signifikanz x1 gt x2 oder x2 gt x1
verwerfen wenn mit hoher Signifikanz x2 gt x1
verwerfen wenn mit hoher Signifikanz x1 gt x2
weitere Testverfahren
Welch-Test als Alternative zum Studentschen t-Test
zum Vergleich empirischer Daten auf gleichen Mittelwert bei ungleichen Varianzen der Stichproben
Kolmogorov-Smirnov-Test
zum Vergleich empirischer Daten mit vorgegebener Verteilungsfunktion zB sind die Daten Gauszlig-verteilt
Alternativen Anderson-Darling- oder Cramer-von Mises-Test
F-Test
auf gleiche Varianz von Stichproben
allg Testverfahren die auf dem Likelihood-Verhaumlltnis
beruhen
Optimale Wahl der Pruumlfgroumlszlige
Neyman ndash Pearson Lemma Bester Test fuumlr einfache Hypothesen
aumlquivalent
Problem exakte Likelihood oft unbekannt Moumlglichkeiten ndash (plausiblen) Ansatz fuumlr funktionale Form verwenden
ndash Monte Carlo ndash Simulation
Im Grenzfall groszliger Stichproben gibt es asymptotische Verteilungen fuumlr r(x) auch fuumlr zusammengesetzte Hypothesen (also mit
freien aus den Daten zu bestimmenden Parametern) (Wilkssches Theorem)
Klassifizierungsprobleme in hochdimen- sionalen Variablenraumlumen sind haumlufig
ndash ist der Buchstabe ein bdquoaldquo
ndash ist das Teilchen ein Elektron oder Myon
ndash ist der Kunde ein potentieller Betruumlger
ndash Signal oder Untergrund
ndash ist die E-Mail Spam
- hellip
Ausblick Klassifizierung als Hypothesentest
Gehoumlrt ein Ereignis zu einer von zwei oder mehreren Klassen ndash Zufallsereignis beschrieben durch n Zufallsvariable x1 hellip xn
ndash Klasse k beschrieben durch PDF fk(x1 hellip xn)
x
Gehoumlrt Punkt x zu Klasse 0 oder 1 Typische bdquoMVAldquo-Methoden zur Behandlung
allg Methoden des bdquoMachine Learningldquo ndash kuumlnstliche neuronale Netze ndash verstaumlrkte Entscheidungsbaumlume ndash Support-Vektoren ndash hellip (s VL Datenanalyse im Master)
x1
x2
Suche nach neuen Phaumlnomenen
Auch die Suche nach neuen Phaumlnomenen zB in der (Teilchen-)Physik ist ein HypothesentestFrage Ist Beobachtung vertraumlglich mit der bekannten Physik
- wenn ja Ausschlussgrenze auf neues Phaumlnomen bestimmen (geht nur wenn die Alternativhypothese genau festgelegt ist ndash Aufg der Theor Physik)
- wenn nein Signifikanz der Abweichung spezifizieren (als p-Wert)
Haumlufig fuumlhrt man bdquoZaumlhlexperimenteldquo zur Suche nach einem neuen Signal durch - relevant fuumlr die Beobachtung von n Ereignissen ist die Poisson-Verteilung
Nullhypothese μ = μ0
Alternative μ = μ0 + μ1 μ1 Beitrag durch neuen Effekt
Messung Beobachtung von nobs Ereignissen aufteilen in (erwarteten) Untergrund b = μ0 und Signal s = nobs ndash bp-Wert Wahrscheinlichkeit n ge nobs falls Nullpyhothese wahr
Beispiel Entdeckung des Higgs-Bosons
Bestimmung von Grenzen aus p-Werten
Untergrundhypothese Signalhypothese
Uumlbliche Art der Darstellung Signalgroumlszlige s den man mit Signifikanzniveau von 95 ausschlieszligen kann
b muss sehr gut bekannt modelliert seinwenn man den bdquoNormalfallldquo nicht kennt kann man nicht nach Abweichungen suchen
erhaltenes Limit fuumlr130 GeV
Haumlufigkeit
erwarteter Ausschluss
Beispiel Suche nach dem Higgs-Boson am LHC Stand 2011 Hypothesentest fuumlr
verschiedene H-Massen
Higgs-Entdeckung am LHCfrac12 Jahr spaumlter 4 Juli 2012 Klare Hinweise auf die Existenz eines Higgs-Bosons
Ereignisuumlberschuss in ZZ und γγ bei ATLAS und CMS
H rarr ZZ H rarr ZZ H rarr γγ H rarr γγ
Higgs-Entdeckung statistische Analyse
Bestimmung der Signalsignifikanz durch Vergleich mit der Untergrund-Hypothese und Bestimmung des bdquolokalen p-Wertsldquo SATLAS = 59 σ () (publizierte Ergebnisse) SCMS = 50σ ()
Zeitliche Entwicklung der Signal-Signifikanz Vorlaumlufige Ergebnisse vom 4 Juli 2012 der ATLAS-Kollaboration am LHC
Signal-Signifikanz vorlaumlufige Ergebnisse vom 4 Juli 2012 der CMS-Kollaboration am LHC
() Im Jargon der Teilchenphysiker entspricht die Angabe n σ dem entsprechenden Quantil der Gauszligverteilung
Hypothesentest Fehlertypen
Fehler 1 Art wahre Nullhypothese wird verworfen Flaumlche α
Fehler 2 Art falsche Nullhypothese wird akzeptiert Flaumlche β
Beispiele Fehler 1 Art (auch bdquofalse positiveldquo) ndash Krankheit bei Gesundem diagnostiziert ndash falsche Entdeckung eines neuen Teilchens ndash ehrlichen Kunden als potentiellen Betruumlger eingestuft
Beispiele Fehler 2 Art (auch bdquofalse negativeldquo) ndash echte Krankheit nicht erkannt ndash neuen Teilchens nicht gefunden obwohl in Daten vorhanden ndash Betruumlger nicht erkannt und Ware auf Rechnung ausgeliefert
Wahl des Signifkanzniveaus haumlngt auch davon ab welcher Fehler als schlimmer erachtet wird ndash Wiss Ruhm vs Laumlcherlichkeit ndash falsche vs unterlassene Behandlung ndash Kunde oder Ware verloren
1-β nennt man dieTeststaumlrke gebr auch Trennschaumlrfe Maumlchtigkeit (engl power)
Hypothesentest Signifikanz und p-Wert
Haumlufige Missverstaumlndnisse
p-Wert ist nicht die Wahrscheinlichkeit dass die Null-Hypohthese wahroder falsch ist
p-Wert ist auch nicht die Wahrscheinlichkeit dass Messung bdquonur eine Fluktuationldquo ist
Unterscheidung Signifikanz und p-Wert
α = Wahrscheinlichkeit fuumlr Fehler 1 Art (festgelegt vor der Messung )
p = Wahrscheinlichkeit dass Werte fuumlr die Pruumlfgroumlszlige t ge t1 gemessen wuumlrden wenn die Nullhypothese wahr ist (nach der Messung von t1 )
xkcdcom
Es ist nicht unuumlblich mit nochviel kleineren Signifkanzniveaus zu arbeiten zB Teilchenphysik ~10-7
bdquoExtraordinary Claims require Extraordinary Signifcanceldquo
Beispiel Muumlnzwurf
Sie haben nach 20-maligem Wurf einer Muumlnze 15 mal Kopf und 5 mal Zahl erhalten Wie kompatibel ist die Hypothese mit diesem Ausgang der Meszligreihe
Grundlage fuumlr die statistische Analyse ist die Binomialverteilung
Berechnung des p-Werts als Summe der Wahrscheinlichkeiten fuumlr das Auftreten von Werten k ge15 mit p=05
aber AchtungBei einer Muumlnze ist eine sehr valide Annahme Uumlberlegen Sie sich genau wann sie diese Hypothese ins Wanken bringen moumlchten
bei einem Signifikanz-Niveau von α=5 wuumlrde man also die Hypothese dass die Muumlnze in Ordnung ist verwerfen
bei eine Signifikanzniveau von α=1 waumlre sie noch akzeptabel
Beispiel2 Binomial mit bdquoUntergrundldquo
Ist eine medizinische Behandlung effektiv
60 bdquospontane Heilungldquo 100 Patienten behandelt rarr
Nullhypothese (nur) le60 der Patienten geheilt (also keine positive Wirkung der Behandlung)
Alternative die Behandlung wirkt
Pruumlfgroumlszlige Zahl der geheilten Patienten
Entscheidung uumlber Wirksamkeit mit 5 Signifikanz
Grundlage ist wieder die Binomial-Verteilung
rarr
mehr als 60 + 164 49 Patienten = 69 Patienten muumlssten geheilt werden um die Wirksamkeit (statistisch) zu belegen
Zahlen sind bdquogroszligldquo erlaube mir eine Gauszligsche Naumlherung
einseitiges 5-Quantil der Gauszlig-Verteilung liegt bei μ+164 σ
kennen wir schon χsup2 - Test
Die χ2-Wahrscheinlichkeit
dient zur Quantifizierung der Qualitaumlt einer Anpassung
Aussage mit welcher Wahrscheinlichkeit ein groumlszligerer Wert von χ2 am Minimum als der tatsaumlchlich beobachtete zu erwarten waumlre
Smin die bdquogewichtete Summe der Residuenquadrateldquo am Minimum bzgl der Parameter p folgt bei Gauszlig-foumlrmig verteilten Fehlern σi
einer χ2-Verteilung mit nf = N-k Freiheitsgraden Erwartungswert ltχ2gt=nf oder ltχ2 nf gt = 1
N Messungenk Parameter
Beispiel χsup2 ndash Test auf Unabhaumlngigkeit Sind die Variablen x und y unabhaumlngig Erinnerung
fuumlr unabhaumlngige Variable ist die Verteilung f(xy) gegeben durch das Produkt der Randverteilungen
f(xy) = fx(x) middot fy(y)
Im Fall eines 2-dimensionalen Histogramms Randverteilungen sind die Histogramme von x u y
Daraus laumlsst sich ein
Test auf Unabhaumlngigkeit konstruieren
Nullhypothese
folgt unter Annahme der Nullhypothese einer χsup2-Verteilung mit Ntot ndash bx ndash by Freiheitsgraden bxy Zahl der Bins in x und y
rarr p-value of chi2-independence test 21
x und y sind also wohl nicht unabhaumlngig Script Histogrampy bzw PhyPraKitpy
Qualitaumlt der Anpassung aus Likelihood
⊖ Likelihood-Methode zur Parameteranpassung liefert zunaumlchst keine Information zur Qualitaumlt einer Anpassung
Beispiel Likelihood der Gauszligverteilung
Referenz
χ2 o
bdquofully saturated modelldquo
in fruumlheren Diskussionen hatten wir diesen Term auf andere Art zu Null diskutiert ( bdquohaumlngt ja gar nicht von den Parametern ab -kann man also weglassenldquo )
Durch geeignete bdquoNormierungldquo kann Qualitaumltsinformation auch aus der Likelihood gewonnen werden Likelihood-Verhaumlltnis
der beobachteten Daten und (geeigneter) Referenzdaten
Qualitaumlt der Anpassung binned Likelihood-Fit
Beispiel 2 Likelihood der Poisson-Verteilung
Referenz
gof = goodness of fit
Auf analoge Weise lassen sich (effiziente) Pruumlfgroumlszligen auf Basis des Likelihood-Verhaumlltnisses auch fuumlr andere Verteilungen generieren
gofPoisson
konvergiert fuumlr groszlige N t gegen χsup2 2
Script gof-testpy
Mittelwert einer Stichprobe als Pruumlfgroumlszlige
n bdquostandard-normalverteilteldquo Zufallszahlen mit Mittelwert
wenn nicht bekannt ist nutzt man die Stichprobenvarianz
die normierte Groumlszlige folgt dann nicht der Gauszligverteilung
sondern der Studentschen t-Verteilung fuumlr n-1 Freiheitsgrade
insbesondere fuumlr kleine n viel groumlszligere Auslaumlufer als Gauszlig-Verteilung
Mittelwert einer Stichprobe als Pruumlfgroumlszlige rarr t-Verteilung verwenden
Studentsche t-Verteilung
1908 vom Guiness-Mitarbeiter WS Gossetunter dem PseudonymbdquoStudentldquo veroumlffentlicht
erste Anwendung Qualitaumltssicherung bei Bier der Marke Guinness
Anwendung Studentsche t-Verteilung
Haumlufige Fragestellung haben zwei unabhaumlngige Grundgesamtheiten (mit der gleichen Varianz) den selben Mittelwert
Nullhypothese x1 = x2 t-verteilte Pruumlfgroumlszlige mit nf = n1 + n2 ndash 2 Freiheitsgraden
mit
Wie vertraumlglich sind die Mittelwerte der (Noten-)Verteilungen
Studentscher t-Test t = 089 p -Wert aus t-Verteilung p = 37 Nullhypothese wird nicht verworfen
d h Unterschied nicht signifikant
Script t-testpy
Einseitiger oder zweiseitiger Test
Nullhypothese x1 = x2
Nullhypothese x1 nicht groumlszliger x2
Nullhypothese x2 nicht groumlszliger x1
kritische Region symmetrisch
Die bdquokritische Regionldquo zum Verwerfen der Null-Hypothese haumlngt von der Null-Hypothese selbst ab
kritische Region rechts (rechtsseitiger Test)
kritische Region links (linksseitiger Test)
Wird verworfen wenn mit hoher Signifikanz x1 gt x2 oder x2 gt x1
verwerfen wenn mit hoher Signifikanz x2 gt x1
verwerfen wenn mit hoher Signifikanz x1 gt x2
weitere Testverfahren
Welch-Test als Alternative zum Studentschen t-Test
zum Vergleich empirischer Daten auf gleichen Mittelwert bei ungleichen Varianzen der Stichproben
Kolmogorov-Smirnov-Test
zum Vergleich empirischer Daten mit vorgegebener Verteilungsfunktion zB sind die Daten Gauszlig-verteilt
Alternativen Anderson-Darling- oder Cramer-von Mises-Test
F-Test
auf gleiche Varianz von Stichproben
allg Testverfahren die auf dem Likelihood-Verhaumlltnis
beruhen
Optimale Wahl der Pruumlfgroumlszlige
Neyman ndash Pearson Lemma Bester Test fuumlr einfache Hypothesen
aumlquivalent
Problem exakte Likelihood oft unbekannt Moumlglichkeiten ndash (plausiblen) Ansatz fuumlr funktionale Form verwenden
ndash Monte Carlo ndash Simulation
Im Grenzfall groszliger Stichproben gibt es asymptotische Verteilungen fuumlr r(x) auch fuumlr zusammengesetzte Hypothesen (also mit
freien aus den Daten zu bestimmenden Parametern) (Wilkssches Theorem)
Klassifizierungsprobleme in hochdimen- sionalen Variablenraumlumen sind haumlufig
ndash ist der Buchstabe ein bdquoaldquo
ndash ist das Teilchen ein Elektron oder Myon
ndash ist der Kunde ein potentieller Betruumlger
ndash Signal oder Untergrund
ndash ist die E-Mail Spam
- hellip
Ausblick Klassifizierung als Hypothesentest
Gehoumlrt ein Ereignis zu einer von zwei oder mehreren Klassen ndash Zufallsereignis beschrieben durch n Zufallsvariable x1 hellip xn
ndash Klasse k beschrieben durch PDF fk(x1 hellip xn)
x
Gehoumlrt Punkt x zu Klasse 0 oder 1 Typische bdquoMVAldquo-Methoden zur Behandlung
allg Methoden des bdquoMachine Learningldquo ndash kuumlnstliche neuronale Netze ndash verstaumlrkte Entscheidungsbaumlume ndash Support-Vektoren ndash hellip (s VL Datenanalyse im Master)
x1
x2
Suche nach neuen Phaumlnomenen
Auch die Suche nach neuen Phaumlnomenen zB in der (Teilchen-)Physik ist ein HypothesentestFrage Ist Beobachtung vertraumlglich mit der bekannten Physik
- wenn ja Ausschlussgrenze auf neues Phaumlnomen bestimmen (geht nur wenn die Alternativhypothese genau festgelegt ist ndash Aufg der Theor Physik)
- wenn nein Signifikanz der Abweichung spezifizieren (als p-Wert)
Haumlufig fuumlhrt man bdquoZaumlhlexperimenteldquo zur Suche nach einem neuen Signal durch - relevant fuumlr die Beobachtung von n Ereignissen ist die Poisson-Verteilung
Nullhypothese μ = μ0
Alternative μ = μ0 + μ1 μ1 Beitrag durch neuen Effekt
Messung Beobachtung von nobs Ereignissen aufteilen in (erwarteten) Untergrund b = μ0 und Signal s = nobs ndash bp-Wert Wahrscheinlichkeit n ge nobs falls Nullpyhothese wahr
Beispiel Entdeckung des Higgs-Bosons
Bestimmung von Grenzen aus p-Werten
Untergrundhypothese Signalhypothese
Uumlbliche Art der Darstellung Signalgroumlszlige s den man mit Signifikanzniveau von 95 ausschlieszligen kann
b muss sehr gut bekannt modelliert seinwenn man den bdquoNormalfallldquo nicht kennt kann man nicht nach Abweichungen suchen
erhaltenes Limit fuumlr130 GeV
Haumlufigkeit
erwarteter Ausschluss
Beispiel Suche nach dem Higgs-Boson am LHC Stand 2011 Hypothesentest fuumlr
verschiedene H-Massen
Higgs-Entdeckung am LHCfrac12 Jahr spaumlter 4 Juli 2012 Klare Hinweise auf die Existenz eines Higgs-Bosons
Ereignisuumlberschuss in ZZ und γγ bei ATLAS und CMS
H rarr ZZ H rarr ZZ H rarr γγ H rarr γγ
Higgs-Entdeckung statistische Analyse
Bestimmung der Signalsignifikanz durch Vergleich mit der Untergrund-Hypothese und Bestimmung des bdquolokalen p-Wertsldquo SATLAS = 59 σ () (publizierte Ergebnisse) SCMS = 50σ ()
Zeitliche Entwicklung der Signal-Signifikanz Vorlaumlufige Ergebnisse vom 4 Juli 2012 der ATLAS-Kollaboration am LHC
Signal-Signifikanz vorlaumlufige Ergebnisse vom 4 Juli 2012 der CMS-Kollaboration am LHC
() Im Jargon der Teilchenphysiker entspricht die Angabe n σ dem entsprechenden Quantil der Gauszligverteilung
Hypothesentest Signifikanz und p-Wert
Haumlufige Missverstaumlndnisse
p-Wert ist nicht die Wahrscheinlichkeit dass die Null-Hypohthese wahroder falsch ist
p-Wert ist auch nicht die Wahrscheinlichkeit dass Messung bdquonur eine Fluktuationldquo ist
Unterscheidung Signifikanz und p-Wert
α = Wahrscheinlichkeit fuumlr Fehler 1 Art (festgelegt vor der Messung )
p = Wahrscheinlichkeit dass Werte fuumlr die Pruumlfgroumlszlige t ge t1 gemessen wuumlrden wenn die Nullhypothese wahr ist (nach der Messung von t1 )
xkcdcom
Es ist nicht unuumlblich mit nochviel kleineren Signifkanzniveaus zu arbeiten zB Teilchenphysik ~10-7
bdquoExtraordinary Claims require Extraordinary Signifcanceldquo
Beispiel Muumlnzwurf
Sie haben nach 20-maligem Wurf einer Muumlnze 15 mal Kopf und 5 mal Zahl erhalten Wie kompatibel ist die Hypothese mit diesem Ausgang der Meszligreihe
Grundlage fuumlr die statistische Analyse ist die Binomialverteilung
Berechnung des p-Werts als Summe der Wahrscheinlichkeiten fuumlr das Auftreten von Werten k ge15 mit p=05
aber AchtungBei einer Muumlnze ist eine sehr valide Annahme Uumlberlegen Sie sich genau wann sie diese Hypothese ins Wanken bringen moumlchten
bei einem Signifikanz-Niveau von α=5 wuumlrde man also die Hypothese dass die Muumlnze in Ordnung ist verwerfen
bei eine Signifikanzniveau von α=1 waumlre sie noch akzeptabel
Beispiel2 Binomial mit bdquoUntergrundldquo
Ist eine medizinische Behandlung effektiv
60 bdquospontane Heilungldquo 100 Patienten behandelt rarr
Nullhypothese (nur) le60 der Patienten geheilt (also keine positive Wirkung der Behandlung)
Alternative die Behandlung wirkt
Pruumlfgroumlszlige Zahl der geheilten Patienten
Entscheidung uumlber Wirksamkeit mit 5 Signifikanz
Grundlage ist wieder die Binomial-Verteilung
rarr
mehr als 60 + 164 49 Patienten = 69 Patienten muumlssten geheilt werden um die Wirksamkeit (statistisch) zu belegen
Zahlen sind bdquogroszligldquo erlaube mir eine Gauszligsche Naumlherung
einseitiges 5-Quantil der Gauszlig-Verteilung liegt bei μ+164 σ
kennen wir schon χsup2 - Test
Die χ2-Wahrscheinlichkeit
dient zur Quantifizierung der Qualitaumlt einer Anpassung
Aussage mit welcher Wahrscheinlichkeit ein groumlszligerer Wert von χ2 am Minimum als der tatsaumlchlich beobachtete zu erwarten waumlre
Smin die bdquogewichtete Summe der Residuenquadrateldquo am Minimum bzgl der Parameter p folgt bei Gauszlig-foumlrmig verteilten Fehlern σi
einer χ2-Verteilung mit nf = N-k Freiheitsgraden Erwartungswert ltχ2gt=nf oder ltχ2 nf gt = 1
N Messungenk Parameter
Beispiel χsup2 ndash Test auf Unabhaumlngigkeit Sind die Variablen x und y unabhaumlngig Erinnerung
fuumlr unabhaumlngige Variable ist die Verteilung f(xy) gegeben durch das Produkt der Randverteilungen
f(xy) = fx(x) middot fy(y)
Im Fall eines 2-dimensionalen Histogramms Randverteilungen sind die Histogramme von x u y
Daraus laumlsst sich ein
Test auf Unabhaumlngigkeit konstruieren
Nullhypothese
folgt unter Annahme der Nullhypothese einer χsup2-Verteilung mit Ntot ndash bx ndash by Freiheitsgraden bxy Zahl der Bins in x und y
rarr p-value of chi2-independence test 21
x und y sind also wohl nicht unabhaumlngig Script Histogrampy bzw PhyPraKitpy
Qualitaumlt der Anpassung aus Likelihood
⊖ Likelihood-Methode zur Parameteranpassung liefert zunaumlchst keine Information zur Qualitaumlt einer Anpassung
Beispiel Likelihood der Gauszligverteilung
Referenz
χ2 o
bdquofully saturated modelldquo
in fruumlheren Diskussionen hatten wir diesen Term auf andere Art zu Null diskutiert ( bdquohaumlngt ja gar nicht von den Parametern ab -kann man also weglassenldquo )
Durch geeignete bdquoNormierungldquo kann Qualitaumltsinformation auch aus der Likelihood gewonnen werden Likelihood-Verhaumlltnis
der beobachteten Daten und (geeigneter) Referenzdaten
Qualitaumlt der Anpassung binned Likelihood-Fit
Beispiel 2 Likelihood der Poisson-Verteilung
Referenz
gof = goodness of fit
Auf analoge Weise lassen sich (effiziente) Pruumlfgroumlszligen auf Basis des Likelihood-Verhaumlltnisses auch fuumlr andere Verteilungen generieren
gofPoisson
konvergiert fuumlr groszlige N t gegen χsup2 2
Script gof-testpy
Mittelwert einer Stichprobe als Pruumlfgroumlszlige
n bdquostandard-normalverteilteldquo Zufallszahlen mit Mittelwert
wenn nicht bekannt ist nutzt man die Stichprobenvarianz
die normierte Groumlszlige folgt dann nicht der Gauszligverteilung
sondern der Studentschen t-Verteilung fuumlr n-1 Freiheitsgrade
insbesondere fuumlr kleine n viel groumlszligere Auslaumlufer als Gauszlig-Verteilung
Mittelwert einer Stichprobe als Pruumlfgroumlszlige rarr t-Verteilung verwenden
Studentsche t-Verteilung
1908 vom Guiness-Mitarbeiter WS Gossetunter dem PseudonymbdquoStudentldquo veroumlffentlicht
erste Anwendung Qualitaumltssicherung bei Bier der Marke Guinness
Anwendung Studentsche t-Verteilung
Haumlufige Fragestellung haben zwei unabhaumlngige Grundgesamtheiten (mit der gleichen Varianz) den selben Mittelwert
Nullhypothese x1 = x2 t-verteilte Pruumlfgroumlszlige mit nf = n1 + n2 ndash 2 Freiheitsgraden
mit
Wie vertraumlglich sind die Mittelwerte der (Noten-)Verteilungen
Studentscher t-Test t = 089 p -Wert aus t-Verteilung p = 37 Nullhypothese wird nicht verworfen
d h Unterschied nicht signifikant
Script t-testpy
Einseitiger oder zweiseitiger Test
Nullhypothese x1 = x2
Nullhypothese x1 nicht groumlszliger x2
Nullhypothese x2 nicht groumlszliger x1
kritische Region symmetrisch
Die bdquokritische Regionldquo zum Verwerfen der Null-Hypothese haumlngt von der Null-Hypothese selbst ab
kritische Region rechts (rechtsseitiger Test)
kritische Region links (linksseitiger Test)
Wird verworfen wenn mit hoher Signifikanz x1 gt x2 oder x2 gt x1
verwerfen wenn mit hoher Signifikanz x2 gt x1
verwerfen wenn mit hoher Signifikanz x1 gt x2
weitere Testverfahren
Welch-Test als Alternative zum Studentschen t-Test
zum Vergleich empirischer Daten auf gleichen Mittelwert bei ungleichen Varianzen der Stichproben
Kolmogorov-Smirnov-Test
zum Vergleich empirischer Daten mit vorgegebener Verteilungsfunktion zB sind die Daten Gauszlig-verteilt
Alternativen Anderson-Darling- oder Cramer-von Mises-Test
F-Test
auf gleiche Varianz von Stichproben
allg Testverfahren die auf dem Likelihood-Verhaumlltnis
beruhen
Optimale Wahl der Pruumlfgroumlszlige
Neyman ndash Pearson Lemma Bester Test fuumlr einfache Hypothesen
aumlquivalent
Problem exakte Likelihood oft unbekannt Moumlglichkeiten ndash (plausiblen) Ansatz fuumlr funktionale Form verwenden
ndash Monte Carlo ndash Simulation
Im Grenzfall groszliger Stichproben gibt es asymptotische Verteilungen fuumlr r(x) auch fuumlr zusammengesetzte Hypothesen (also mit
freien aus den Daten zu bestimmenden Parametern) (Wilkssches Theorem)
Klassifizierungsprobleme in hochdimen- sionalen Variablenraumlumen sind haumlufig
ndash ist der Buchstabe ein bdquoaldquo
ndash ist das Teilchen ein Elektron oder Myon
ndash ist der Kunde ein potentieller Betruumlger
ndash Signal oder Untergrund
ndash ist die E-Mail Spam
- hellip
Ausblick Klassifizierung als Hypothesentest
Gehoumlrt ein Ereignis zu einer von zwei oder mehreren Klassen ndash Zufallsereignis beschrieben durch n Zufallsvariable x1 hellip xn
ndash Klasse k beschrieben durch PDF fk(x1 hellip xn)
x
Gehoumlrt Punkt x zu Klasse 0 oder 1 Typische bdquoMVAldquo-Methoden zur Behandlung
allg Methoden des bdquoMachine Learningldquo ndash kuumlnstliche neuronale Netze ndash verstaumlrkte Entscheidungsbaumlume ndash Support-Vektoren ndash hellip (s VL Datenanalyse im Master)
x1
x2
Suche nach neuen Phaumlnomenen
Auch die Suche nach neuen Phaumlnomenen zB in der (Teilchen-)Physik ist ein HypothesentestFrage Ist Beobachtung vertraumlglich mit der bekannten Physik
- wenn ja Ausschlussgrenze auf neues Phaumlnomen bestimmen (geht nur wenn die Alternativhypothese genau festgelegt ist ndash Aufg der Theor Physik)
- wenn nein Signifikanz der Abweichung spezifizieren (als p-Wert)
Haumlufig fuumlhrt man bdquoZaumlhlexperimenteldquo zur Suche nach einem neuen Signal durch - relevant fuumlr die Beobachtung von n Ereignissen ist die Poisson-Verteilung
Nullhypothese μ = μ0
Alternative μ = μ0 + μ1 μ1 Beitrag durch neuen Effekt
Messung Beobachtung von nobs Ereignissen aufteilen in (erwarteten) Untergrund b = μ0 und Signal s = nobs ndash bp-Wert Wahrscheinlichkeit n ge nobs falls Nullpyhothese wahr
Beispiel Entdeckung des Higgs-Bosons
Bestimmung von Grenzen aus p-Werten
Untergrundhypothese Signalhypothese
Uumlbliche Art der Darstellung Signalgroumlszlige s den man mit Signifikanzniveau von 95 ausschlieszligen kann
b muss sehr gut bekannt modelliert seinwenn man den bdquoNormalfallldquo nicht kennt kann man nicht nach Abweichungen suchen
erhaltenes Limit fuumlr130 GeV
Haumlufigkeit
erwarteter Ausschluss
Beispiel Suche nach dem Higgs-Boson am LHC Stand 2011 Hypothesentest fuumlr
verschiedene H-Massen
Higgs-Entdeckung am LHCfrac12 Jahr spaumlter 4 Juli 2012 Klare Hinweise auf die Existenz eines Higgs-Bosons
Ereignisuumlberschuss in ZZ und γγ bei ATLAS und CMS
H rarr ZZ H rarr ZZ H rarr γγ H rarr γγ
Higgs-Entdeckung statistische Analyse
Bestimmung der Signalsignifikanz durch Vergleich mit der Untergrund-Hypothese und Bestimmung des bdquolokalen p-Wertsldquo SATLAS = 59 σ () (publizierte Ergebnisse) SCMS = 50σ ()
Zeitliche Entwicklung der Signal-Signifikanz Vorlaumlufige Ergebnisse vom 4 Juli 2012 der ATLAS-Kollaboration am LHC
Signal-Signifikanz vorlaumlufige Ergebnisse vom 4 Juli 2012 der CMS-Kollaboration am LHC
() Im Jargon der Teilchenphysiker entspricht die Angabe n σ dem entsprechenden Quantil der Gauszligverteilung
Beispiel Muumlnzwurf
Sie haben nach 20-maligem Wurf einer Muumlnze 15 mal Kopf und 5 mal Zahl erhalten Wie kompatibel ist die Hypothese mit diesem Ausgang der Meszligreihe
Grundlage fuumlr die statistische Analyse ist die Binomialverteilung
Berechnung des p-Werts als Summe der Wahrscheinlichkeiten fuumlr das Auftreten von Werten k ge15 mit p=05
aber AchtungBei einer Muumlnze ist eine sehr valide Annahme Uumlberlegen Sie sich genau wann sie diese Hypothese ins Wanken bringen moumlchten
bei einem Signifikanz-Niveau von α=5 wuumlrde man also die Hypothese dass die Muumlnze in Ordnung ist verwerfen
bei eine Signifikanzniveau von α=1 waumlre sie noch akzeptabel
Beispiel2 Binomial mit bdquoUntergrundldquo
Ist eine medizinische Behandlung effektiv
60 bdquospontane Heilungldquo 100 Patienten behandelt rarr
Nullhypothese (nur) le60 der Patienten geheilt (also keine positive Wirkung der Behandlung)
Alternative die Behandlung wirkt
Pruumlfgroumlszlige Zahl der geheilten Patienten
Entscheidung uumlber Wirksamkeit mit 5 Signifikanz
Grundlage ist wieder die Binomial-Verteilung
rarr
mehr als 60 + 164 49 Patienten = 69 Patienten muumlssten geheilt werden um die Wirksamkeit (statistisch) zu belegen
Zahlen sind bdquogroszligldquo erlaube mir eine Gauszligsche Naumlherung
einseitiges 5-Quantil der Gauszlig-Verteilung liegt bei μ+164 σ
kennen wir schon χsup2 - Test
Die χ2-Wahrscheinlichkeit
dient zur Quantifizierung der Qualitaumlt einer Anpassung
Aussage mit welcher Wahrscheinlichkeit ein groumlszligerer Wert von χ2 am Minimum als der tatsaumlchlich beobachtete zu erwarten waumlre
Smin die bdquogewichtete Summe der Residuenquadrateldquo am Minimum bzgl der Parameter p folgt bei Gauszlig-foumlrmig verteilten Fehlern σi
einer χ2-Verteilung mit nf = N-k Freiheitsgraden Erwartungswert ltχ2gt=nf oder ltχ2 nf gt = 1
N Messungenk Parameter
Beispiel χsup2 ndash Test auf Unabhaumlngigkeit Sind die Variablen x und y unabhaumlngig Erinnerung
fuumlr unabhaumlngige Variable ist die Verteilung f(xy) gegeben durch das Produkt der Randverteilungen
f(xy) = fx(x) middot fy(y)
Im Fall eines 2-dimensionalen Histogramms Randverteilungen sind die Histogramme von x u y
Daraus laumlsst sich ein
Test auf Unabhaumlngigkeit konstruieren
Nullhypothese
folgt unter Annahme der Nullhypothese einer χsup2-Verteilung mit Ntot ndash bx ndash by Freiheitsgraden bxy Zahl der Bins in x und y
rarr p-value of chi2-independence test 21
x und y sind also wohl nicht unabhaumlngig Script Histogrampy bzw PhyPraKitpy
Qualitaumlt der Anpassung aus Likelihood
⊖ Likelihood-Methode zur Parameteranpassung liefert zunaumlchst keine Information zur Qualitaumlt einer Anpassung
Beispiel Likelihood der Gauszligverteilung
Referenz
χ2 o
bdquofully saturated modelldquo
in fruumlheren Diskussionen hatten wir diesen Term auf andere Art zu Null diskutiert ( bdquohaumlngt ja gar nicht von den Parametern ab -kann man also weglassenldquo )
Durch geeignete bdquoNormierungldquo kann Qualitaumltsinformation auch aus der Likelihood gewonnen werden Likelihood-Verhaumlltnis
der beobachteten Daten und (geeigneter) Referenzdaten
Qualitaumlt der Anpassung binned Likelihood-Fit
Beispiel 2 Likelihood der Poisson-Verteilung
Referenz
gof = goodness of fit
Auf analoge Weise lassen sich (effiziente) Pruumlfgroumlszligen auf Basis des Likelihood-Verhaumlltnisses auch fuumlr andere Verteilungen generieren
gofPoisson
konvergiert fuumlr groszlige N t gegen χsup2 2
Script gof-testpy
Mittelwert einer Stichprobe als Pruumlfgroumlszlige
n bdquostandard-normalverteilteldquo Zufallszahlen mit Mittelwert
wenn nicht bekannt ist nutzt man die Stichprobenvarianz
die normierte Groumlszlige folgt dann nicht der Gauszligverteilung
sondern der Studentschen t-Verteilung fuumlr n-1 Freiheitsgrade
insbesondere fuumlr kleine n viel groumlszligere Auslaumlufer als Gauszlig-Verteilung
Mittelwert einer Stichprobe als Pruumlfgroumlszlige rarr t-Verteilung verwenden
Studentsche t-Verteilung
1908 vom Guiness-Mitarbeiter WS Gossetunter dem PseudonymbdquoStudentldquo veroumlffentlicht
erste Anwendung Qualitaumltssicherung bei Bier der Marke Guinness
Anwendung Studentsche t-Verteilung
Haumlufige Fragestellung haben zwei unabhaumlngige Grundgesamtheiten (mit der gleichen Varianz) den selben Mittelwert
Nullhypothese x1 = x2 t-verteilte Pruumlfgroumlszlige mit nf = n1 + n2 ndash 2 Freiheitsgraden
mit
Wie vertraumlglich sind die Mittelwerte der (Noten-)Verteilungen
Studentscher t-Test t = 089 p -Wert aus t-Verteilung p = 37 Nullhypothese wird nicht verworfen
d h Unterschied nicht signifikant
Script t-testpy
Einseitiger oder zweiseitiger Test
Nullhypothese x1 = x2
Nullhypothese x1 nicht groumlszliger x2
Nullhypothese x2 nicht groumlszliger x1
kritische Region symmetrisch
Die bdquokritische Regionldquo zum Verwerfen der Null-Hypothese haumlngt von der Null-Hypothese selbst ab
kritische Region rechts (rechtsseitiger Test)
kritische Region links (linksseitiger Test)
Wird verworfen wenn mit hoher Signifikanz x1 gt x2 oder x2 gt x1
verwerfen wenn mit hoher Signifikanz x2 gt x1
verwerfen wenn mit hoher Signifikanz x1 gt x2
weitere Testverfahren
Welch-Test als Alternative zum Studentschen t-Test
zum Vergleich empirischer Daten auf gleichen Mittelwert bei ungleichen Varianzen der Stichproben
Kolmogorov-Smirnov-Test
zum Vergleich empirischer Daten mit vorgegebener Verteilungsfunktion zB sind die Daten Gauszlig-verteilt
Alternativen Anderson-Darling- oder Cramer-von Mises-Test
F-Test
auf gleiche Varianz von Stichproben
allg Testverfahren die auf dem Likelihood-Verhaumlltnis
beruhen
Optimale Wahl der Pruumlfgroumlszlige
Neyman ndash Pearson Lemma Bester Test fuumlr einfache Hypothesen
aumlquivalent
Problem exakte Likelihood oft unbekannt Moumlglichkeiten ndash (plausiblen) Ansatz fuumlr funktionale Form verwenden
ndash Monte Carlo ndash Simulation
Im Grenzfall groszliger Stichproben gibt es asymptotische Verteilungen fuumlr r(x) auch fuumlr zusammengesetzte Hypothesen (also mit
freien aus den Daten zu bestimmenden Parametern) (Wilkssches Theorem)
Klassifizierungsprobleme in hochdimen- sionalen Variablenraumlumen sind haumlufig
ndash ist der Buchstabe ein bdquoaldquo
ndash ist das Teilchen ein Elektron oder Myon
ndash ist der Kunde ein potentieller Betruumlger
ndash Signal oder Untergrund
ndash ist die E-Mail Spam
- hellip
Ausblick Klassifizierung als Hypothesentest
Gehoumlrt ein Ereignis zu einer von zwei oder mehreren Klassen ndash Zufallsereignis beschrieben durch n Zufallsvariable x1 hellip xn
ndash Klasse k beschrieben durch PDF fk(x1 hellip xn)
x
Gehoumlrt Punkt x zu Klasse 0 oder 1 Typische bdquoMVAldquo-Methoden zur Behandlung
allg Methoden des bdquoMachine Learningldquo ndash kuumlnstliche neuronale Netze ndash verstaumlrkte Entscheidungsbaumlume ndash Support-Vektoren ndash hellip (s VL Datenanalyse im Master)
x1
x2
Suche nach neuen Phaumlnomenen
Auch die Suche nach neuen Phaumlnomenen zB in der (Teilchen-)Physik ist ein HypothesentestFrage Ist Beobachtung vertraumlglich mit der bekannten Physik
- wenn ja Ausschlussgrenze auf neues Phaumlnomen bestimmen (geht nur wenn die Alternativhypothese genau festgelegt ist ndash Aufg der Theor Physik)
- wenn nein Signifikanz der Abweichung spezifizieren (als p-Wert)
Haumlufig fuumlhrt man bdquoZaumlhlexperimenteldquo zur Suche nach einem neuen Signal durch - relevant fuumlr die Beobachtung von n Ereignissen ist die Poisson-Verteilung
Nullhypothese μ = μ0
Alternative μ = μ0 + μ1 μ1 Beitrag durch neuen Effekt
Messung Beobachtung von nobs Ereignissen aufteilen in (erwarteten) Untergrund b = μ0 und Signal s = nobs ndash bp-Wert Wahrscheinlichkeit n ge nobs falls Nullpyhothese wahr
Beispiel Entdeckung des Higgs-Bosons
Bestimmung von Grenzen aus p-Werten
Untergrundhypothese Signalhypothese
Uumlbliche Art der Darstellung Signalgroumlszlige s den man mit Signifikanzniveau von 95 ausschlieszligen kann
b muss sehr gut bekannt modelliert seinwenn man den bdquoNormalfallldquo nicht kennt kann man nicht nach Abweichungen suchen
erhaltenes Limit fuumlr130 GeV
Haumlufigkeit
erwarteter Ausschluss
Beispiel Suche nach dem Higgs-Boson am LHC Stand 2011 Hypothesentest fuumlr
verschiedene H-Massen
Higgs-Entdeckung am LHCfrac12 Jahr spaumlter 4 Juli 2012 Klare Hinweise auf die Existenz eines Higgs-Bosons
Ereignisuumlberschuss in ZZ und γγ bei ATLAS und CMS
H rarr ZZ H rarr ZZ H rarr γγ H rarr γγ
Higgs-Entdeckung statistische Analyse
Bestimmung der Signalsignifikanz durch Vergleich mit der Untergrund-Hypothese und Bestimmung des bdquolokalen p-Wertsldquo SATLAS = 59 σ () (publizierte Ergebnisse) SCMS = 50σ ()
Zeitliche Entwicklung der Signal-Signifikanz Vorlaumlufige Ergebnisse vom 4 Juli 2012 der ATLAS-Kollaboration am LHC
Signal-Signifikanz vorlaumlufige Ergebnisse vom 4 Juli 2012 der CMS-Kollaboration am LHC
() Im Jargon der Teilchenphysiker entspricht die Angabe n σ dem entsprechenden Quantil der Gauszligverteilung
Beispiel2 Binomial mit bdquoUntergrundldquo
Ist eine medizinische Behandlung effektiv
60 bdquospontane Heilungldquo 100 Patienten behandelt rarr
Nullhypothese (nur) le60 der Patienten geheilt (also keine positive Wirkung der Behandlung)
Alternative die Behandlung wirkt
Pruumlfgroumlszlige Zahl der geheilten Patienten
Entscheidung uumlber Wirksamkeit mit 5 Signifikanz
Grundlage ist wieder die Binomial-Verteilung
rarr
mehr als 60 + 164 49 Patienten = 69 Patienten muumlssten geheilt werden um die Wirksamkeit (statistisch) zu belegen
Zahlen sind bdquogroszligldquo erlaube mir eine Gauszligsche Naumlherung
einseitiges 5-Quantil der Gauszlig-Verteilung liegt bei μ+164 σ
kennen wir schon χsup2 - Test
Die χ2-Wahrscheinlichkeit
dient zur Quantifizierung der Qualitaumlt einer Anpassung
Aussage mit welcher Wahrscheinlichkeit ein groumlszligerer Wert von χ2 am Minimum als der tatsaumlchlich beobachtete zu erwarten waumlre
Smin die bdquogewichtete Summe der Residuenquadrateldquo am Minimum bzgl der Parameter p folgt bei Gauszlig-foumlrmig verteilten Fehlern σi
einer χ2-Verteilung mit nf = N-k Freiheitsgraden Erwartungswert ltχ2gt=nf oder ltχ2 nf gt = 1
N Messungenk Parameter
Beispiel χsup2 ndash Test auf Unabhaumlngigkeit Sind die Variablen x und y unabhaumlngig Erinnerung
fuumlr unabhaumlngige Variable ist die Verteilung f(xy) gegeben durch das Produkt der Randverteilungen
f(xy) = fx(x) middot fy(y)
Im Fall eines 2-dimensionalen Histogramms Randverteilungen sind die Histogramme von x u y
Daraus laumlsst sich ein
Test auf Unabhaumlngigkeit konstruieren
Nullhypothese
folgt unter Annahme der Nullhypothese einer χsup2-Verteilung mit Ntot ndash bx ndash by Freiheitsgraden bxy Zahl der Bins in x und y
rarr p-value of chi2-independence test 21
x und y sind also wohl nicht unabhaumlngig Script Histogrampy bzw PhyPraKitpy
Qualitaumlt der Anpassung aus Likelihood
⊖ Likelihood-Methode zur Parameteranpassung liefert zunaumlchst keine Information zur Qualitaumlt einer Anpassung
Beispiel Likelihood der Gauszligverteilung
Referenz
χ2 o
bdquofully saturated modelldquo
in fruumlheren Diskussionen hatten wir diesen Term auf andere Art zu Null diskutiert ( bdquohaumlngt ja gar nicht von den Parametern ab -kann man also weglassenldquo )
Durch geeignete bdquoNormierungldquo kann Qualitaumltsinformation auch aus der Likelihood gewonnen werden Likelihood-Verhaumlltnis
der beobachteten Daten und (geeigneter) Referenzdaten
Qualitaumlt der Anpassung binned Likelihood-Fit
Beispiel 2 Likelihood der Poisson-Verteilung
Referenz
gof = goodness of fit
Auf analoge Weise lassen sich (effiziente) Pruumlfgroumlszligen auf Basis des Likelihood-Verhaumlltnisses auch fuumlr andere Verteilungen generieren
gofPoisson
konvergiert fuumlr groszlige N t gegen χsup2 2
Script gof-testpy
Mittelwert einer Stichprobe als Pruumlfgroumlszlige
n bdquostandard-normalverteilteldquo Zufallszahlen mit Mittelwert
wenn nicht bekannt ist nutzt man die Stichprobenvarianz
die normierte Groumlszlige folgt dann nicht der Gauszligverteilung
sondern der Studentschen t-Verteilung fuumlr n-1 Freiheitsgrade
insbesondere fuumlr kleine n viel groumlszligere Auslaumlufer als Gauszlig-Verteilung
Mittelwert einer Stichprobe als Pruumlfgroumlszlige rarr t-Verteilung verwenden
Studentsche t-Verteilung
1908 vom Guiness-Mitarbeiter WS Gossetunter dem PseudonymbdquoStudentldquo veroumlffentlicht
erste Anwendung Qualitaumltssicherung bei Bier der Marke Guinness
Anwendung Studentsche t-Verteilung
Haumlufige Fragestellung haben zwei unabhaumlngige Grundgesamtheiten (mit der gleichen Varianz) den selben Mittelwert
Nullhypothese x1 = x2 t-verteilte Pruumlfgroumlszlige mit nf = n1 + n2 ndash 2 Freiheitsgraden
mit
Wie vertraumlglich sind die Mittelwerte der (Noten-)Verteilungen
Studentscher t-Test t = 089 p -Wert aus t-Verteilung p = 37 Nullhypothese wird nicht verworfen
d h Unterschied nicht signifikant
Script t-testpy
Einseitiger oder zweiseitiger Test
Nullhypothese x1 = x2
Nullhypothese x1 nicht groumlszliger x2
Nullhypothese x2 nicht groumlszliger x1
kritische Region symmetrisch
Die bdquokritische Regionldquo zum Verwerfen der Null-Hypothese haumlngt von der Null-Hypothese selbst ab
kritische Region rechts (rechtsseitiger Test)
kritische Region links (linksseitiger Test)
Wird verworfen wenn mit hoher Signifikanz x1 gt x2 oder x2 gt x1
verwerfen wenn mit hoher Signifikanz x2 gt x1
verwerfen wenn mit hoher Signifikanz x1 gt x2
weitere Testverfahren
Welch-Test als Alternative zum Studentschen t-Test
zum Vergleich empirischer Daten auf gleichen Mittelwert bei ungleichen Varianzen der Stichproben
Kolmogorov-Smirnov-Test
zum Vergleich empirischer Daten mit vorgegebener Verteilungsfunktion zB sind die Daten Gauszlig-verteilt
Alternativen Anderson-Darling- oder Cramer-von Mises-Test
F-Test
auf gleiche Varianz von Stichproben
allg Testverfahren die auf dem Likelihood-Verhaumlltnis
beruhen
Optimale Wahl der Pruumlfgroumlszlige
Neyman ndash Pearson Lemma Bester Test fuumlr einfache Hypothesen
aumlquivalent
Problem exakte Likelihood oft unbekannt Moumlglichkeiten ndash (plausiblen) Ansatz fuumlr funktionale Form verwenden
ndash Monte Carlo ndash Simulation
Im Grenzfall groszliger Stichproben gibt es asymptotische Verteilungen fuumlr r(x) auch fuumlr zusammengesetzte Hypothesen (also mit
freien aus den Daten zu bestimmenden Parametern) (Wilkssches Theorem)
Klassifizierungsprobleme in hochdimen- sionalen Variablenraumlumen sind haumlufig
ndash ist der Buchstabe ein bdquoaldquo
ndash ist das Teilchen ein Elektron oder Myon
ndash ist der Kunde ein potentieller Betruumlger
ndash Signal oder Untergrund
ndash ist die E-Mail Spam
- hellip
Ausblick Klassifizierung als Hypothesentest
Gehoumlrt ein Ereignis zu einer von zwei oder mehreren Klassen ndash Zufallsereignis beschrieben durch n Zufallsvariable x1 hellip xn
ndash Klasse k beschrieben durch PDF fk(x1 hellip xn)
x
Gehoumlrt Punkt x zu Klasse 0 oder 1 Typische bdquoMVAldquo-Methoden zur Behandlung
allg Methoden des bdquoMachine Learningldquo ndash kuumlnstliche neuronale Netze ndash verstaumlrkte Entscheidungsbaumlume ndash Support-Vektoren ndash hellip (s VL Datenanalyse im Master)
x1
x2
Suche nach neuen Phaumlnomenen
Auch die Suche nach neuen Phaumlnomenen zB in der (Teilchen-)Physik ist ein HypothesentestFrage Ist Beobachtung vertraumlglich mit der bekannten Physik
- wenn ja Ausschlussgrenze auf neues Phaumlnomen bestimmen (geht nur wenn die Alternativhypothese genau festgelegt ist ndash Aufg der Theor Physik)
- wenn nein Signifikanz der Abweichung spezifizieren (als p-Wert)
Haumlufig fuumlhrt man bdquoZaumlhlexperimenteldquo zur Suche nach einem neuen Signal durch - relevant fuumlr die Beobachtung von n Ereignissen ist die Poisson-Verteilung
Nullhypothese μ = μ0
Alternative μ = μ0 + μ1 μ1 Beitrag durch neuen Effekt
Messung Beobachtung von nobs Ereignissen aufteilen in (erwarteten) Untergrund b = μ0 und Signal s = nobs ndash bp-Wert Wahrscheinlichkeit n ge nobs falls Nullpyhothese wahr
Beispiel Entdeckung des Higgs-Bosons
Bestimmung von Grenzen aus p-Werten
Untergrundhypothese Signalhypothese
Uumlbliche Art der Darstellung Signalgroumlszlige s den man mit Signifikanzniveau von 95 ausschlieszligen kann
b muss sehr gut bekannt modelliert seinwenn man den bdquoNormalfallldquo nicht kennt kann man nicht nach Abweichungen suchen
erhaltenes Limit fuumlr130 GeV
Haumlufigkeit
erwarteter Ausschluss
Beispiel Suche nach dem Higgs-Boson am LHC Stand 2011 Hypothesentest fuumlr
verschiedene H-Massen
Higgs-Entdeckung am LHCfrac12 Jahr spaumlter 4 Juli 2012 Klare Hinweise auf die Existenz eines Higgs-Bosons
Ereignisuumlberschuss in ZZ und γγ bei ATLAS und CMS
H rarr ZZ H rarr ZZ H rarr γγ H rarr γγ
Higgs-Entdeckung statistische Analyse
Bestimmung der Signalsignifikanz durch Vergleich mit der Untergrund-Hypothese und Bestimmung des bdquolokalen p-Wertsldquo SATLAS = 59 σ () (publizierte Ergebnisse) SCMS = 50σ ()
Zeitliche Entwicklung der Signal-Signifikanz Vorlaumlufige Ergebnisse vom 4 Juli 2012 der ATLAS-Kollaboration am LHC
Signal-Signifikanz vorlaumlufige Ergebnisse vom 4 Juli 2012 der CMS-Kollaboration am LHC
() Im Jargon der Teilchenphysiker entspricht die Angabe n σ dem entsprechenden Quantil der Gauszligverteilung
kennen wir schon χsup2 - Test
Die χ2-Wahrscheinlichkeit
dient zur Quantifizierung der Qualitaumlt einer Anpassung
Aussage mit welcher Wahrscheinlichkeit ein groumlszligerer Wert von χ2 am Minimum als der tatsaumlchlich beobachtete zu erwarten waumlre
Smin die bdquogewichtete Summe der Residuenquadrateldquo am Minimum bzgl der Parameter p folgt bei Gauszlig-foumlrmig verteilten Fehlern σi
einer χ2-Verteilung mit nf = N-k Freiheitsgraden Erwartungswert ltχ2gt=nf oder ltχ2 nf gt = 1
N Messungenk Parameter
Beispiel χsup2 ndash Test auf Unabhaumlngigkeit Sind die Variablen x und y unabhaumlngig Erinnerung
fuumlr unabhaumlngige Variable ist die Verteilung f(xy) gegeben durch das Produkt der Randverteilungen
f(xy) = fx(x) middot fy(y)
Im Fall eines 2-dimensionalen Histogramms Randverteilungen sind die Histogramme von x u y
Daraus laumlsst sich ein
Test auf Unabhaumlngigkeit konstruieren
Nullhypothese
folgt unter Annahme der Nullhypothese einer χsup2-Verteilung mit Ntot ndash bx ndash by Freiheitsgraden bxy Zahl der Bins in x und y
rarr p-value of chi2-independence test 21
x und y sind also wohl nicht unabhaumlngig Script Histogrampy bzw PhyPraKitpy
Qualitaumlt der Anpassung aus Likelihood
⊖ Likelihood-Methode zur Parameteranpassung liefert zunaumlchst keine Information zur Qualitaumlt einer Anpassung
Beispiel Likelihood der Gauszligverteilung
Referenz
χ2 o
bdquofully saturated modelldquo
in fruumlheren Diskussionen hatten wir diesen Term auf andere Art zu Null diskutiert ( bdquohaumlngt ja gar nicht von den Parametern ab -kann man also weglassenldquo )
Durch geeignete bdquoNormierungldquo kann Qualitaumltsinformation auch aus der Likelihood gewonnen werden Likelihood-Verhaumlltnis
der beobachteten Daten und (geeigneter) Referenzdaten
Qualitaumlt der Anpassung binned Likelihood-Fit
Beispiel 2 Likelihood der Poisson-Verteilung
Referenz
gof = goodness of fit
Auf analoge Weise lassen sich (effiziente) Pruumlfgroumlszligen auf Basis des Likelihood-Verhaumlltnisses auch fuumlr andere Verteilungen generieren
gofPoisson
konvergiert fuumlr groszlige N t gegen χsup2 2
Script gof-testpy
Mittelwert einer Stichprobe als Pruumlfgroumlszlige
n bdquostandard-normalverteilteldquo Zufallszahlen mit Mittelwert
wenn nicht bekannt ist nutzt man die Stichprobenvarianz
die normierte Groumlszlige folgt dann nicht der Gauszligverteilung
sondern der Studentschen t-Verteilung fuumlr n-1 Freiheitsgrade
insbesondere fuumlr kleine n viel groumlszligere Auslaumlufer als Gauszlig-Verteilung
Mittelwert einer Stichprobe als Pruumlfgroumlszlige rarr t-Verteilung verwenden
Studentsche t-Verteilung
1908 vom Guiness-Mitarbeiter WS Gossetunter dem PseudonymbdquoStudentldquo veroumlffentlicht
erste Anwendung Qualitaumltssicherung bei Bier der Marke Guinness
Anwendung Studentsche t-Verteilung
Haumlufige Fragestellung haben zwei unabhaumlngige Grundgesamtheiten (mit der gleichen Varianz) den selben Mittelwert
Nullhypothese x1 = x2 t-verteilte Pruumlfgroumlszlige mit nf = n1 + n2 ndash 2 Freiheitsgraden
mit
Wie vertraumlglich sind die Mittelwerte der (Noten-)Verteilungen
Studentscher t-Test t = 089 p -Wert aus t-Verteilung p = 37 Nullhypothese wird nicht verworfen
d h Unterschied nicht signifikant
Script t-testpy
Einseitiger oder zweiseitiger Test
Nullhypothese x1 = x2
Nullhypothese x1 nicht groumlszliger x2
Nullhypothese x2 nicht groumlszliger x1
kritische Region symmetrisch
Die bdquokritische Regionldquo zum Verwerfen der Null-Hypothese haumlngt von der Null-Hypothese selbst ab
kritische Region rechts (rechtsseitiger Test)
kritische Region links (linksseitiger Test)
Wird verworfen wenn mit hoher Signifikanz x1 gt x2 oder x2 gt x1
verwerfen wenn mit hoher Signifikanz x2 gt x1
verwerfen wenn mit hoher Signifikanz x1 gt x2
weitere Testverfahren
Welch-Test als Alternative zum Studentschen t-Test
zum Vergleich empirischer Daten auf gleichen Mittelwert bei ungleichen Varianzen der Stichproben
Kolmogorov-Smirnov-Test
zum Vergleich empirischer Daten mit vorgegebener Verteilungsfunktion zB sind die Daten Gauszlig-verteilt
Alternativen Anderson-Darling- oder Cramer-von Mises-Test
F-Test
auf gleiche Varianz von Stichproben
allg Testverfahren die auf dem Likelihood-Verhaumlltnis
beruhen
Optimale Wahl der Pruumlfgroumlszlige
Neyman ndash Pearson Lemma Bester Test fuumlr einfache Hypothesen
aumlquivalent
Problem exakte Likelihood oft unbekannt Moumlglichkeiten ndash (plausiblen) Ansatz fuumlr funktionale Form verwenden
ndash Monte Carlo ndash Simulation
Im Grenzfall groszliger Stichproben gibt es asymptotische Verteilungen fuumlr r(x) auch fuumlr zusammengesetzte Hypothesen (also mit
freien aus den Daten zu bestimmenden Parametern) (Wilkssches Theorem)
Klassifizierungsprobleme in hochdimen- sionalen Variablenraumlumen sind haumlufig
ndash ist der Buchstabe ein bdquoaldquo
ndash ist das Teilchen ein Elektron oder Myon
ndash ist der Kunde ein potentieller Betruumlger
ndash Signal oder Untergrund
ndash ist die E-Mail Spam
- hellip
Ausblick Klassifizierung als Hypothesentest
Gehoumlrt ein Ereignis zu einer von zwei oder mehreren Klassen ndash Zufallsereignis beschrieben durch n Zufallsvariable x1 hellip xn
ndash Klasse k beschrieben durch PDF fk(x1 hellip xn)
x
Gehoumlrt Punkt x zu Klasse 0 oder 1 Typische bdquoMVAldquo-Methoden zur Behandlung
allg Methoden des bdquoMachine Learningldquo ndash kuumlnstliche neuronale Netze ndash verstaumlrkte Entscheidungsbaumlume ndash Support-Vektoren ndash hellip (s VL Datenanalyse im Master)
x1
x2
Suche nach neuen Phaumlnomenen
Auch die Suche nach neuen Phaumlnomenen zB in der (Teilchen-)Physik ist ein HypothesentestFrage Ist Beobachtung vertraumlglich mit der bekannten Physik
- wenn ja Ausschlussgrenze auf neues Phaumlnomen bestimmen (geht nur wenn die Alternativhypothese genau festgelegt ist ndash Aufg der Theor Physik)
- wenn nein Signifikanz der Abweichung spezifizieren (als p-Wert)
Haumlufig fuumlhrt man bdquoZaumlhlexperimenteldquo zur Suche nach einem neuen Signal durch - relevant fuumlr die Beobachtung von n Ereignissen ist die Poisson-Verteilung
Nullhypothese μ = μ0
Alternative μ = μ0 + μ1 μ1 Beitrag durch neuen Effekt
Messung Beobachtung von nobs Ereignissen aufteilen in (erwarteten) Untergrund b = μ0 und Signal s = nobs ndash bp-Wert Wahrscheinlichkeit n ge nobs falls Nullpyhothese wahr
Beispiel Entdeckung des Higgs-Bosons
Bestimmung von Grenzen aus p-Werten
Untergrundhypothese Signalhypothese
Uumlbliche Art der Darstellung Signalgroumlszlige s den man mit Signifikanzniveau von 95 ausschlieszligen kann
b muss sehr gut bekannt modelliert seinwenn man den bdquoNormalfallldquo nicht kennt kann man nicht nach Abweichungen suchen
erhaltenes Limit fuumlr130 GeV
Haumlufigkeit
erwarteter Ausschluss
Beispiel Suche nach dem Higgs-Boson am LHC Stand 2011 Hypothesentest fuumlr
verschiedene H-Massen
Higgs-Entdeckung am LHCfrac12 Jahr spaumlter 4 Juli 2012 Klare Hinweise auf die Existenz eines Higgs-Bosons
Ereignisuumlberschuss in ZZ und γγ bei ATLAS und CMS
H rarr ZZ H rarr ZZ H rarr γγ H rarr γγ
Higgs-Entdeckung statistische Analyse
Bestimmung der Signalsignifikanz durch Vergleich mit der Untergrund-Hypothese und Bestimmung des bdquolokalen p-Wertsldquo SATLAS = 59 σ () (publizierte Ergebnisse) SCMS = 50σ ()
Zeitliche Entwicklung der Signal-Signifikanz Vorlaumlufige Ergebnisse vom 4 Juli 2012 der ATLAS-Kollaboration am LHC
Signal-Signifikanz vorlaumlufige Ergebnisse vom 4 Juli 2012 der CMS-Kollaboration am LHC
() Im Jargon der Teilchenphysiker entspricht die Angabe n σ dem entsprechenden Quantil der Gauszligverteilung
Beispiel χsup2 ndash Test auf Unabhaumlngigkeit Sind die Variablen x und y unabhaumlngig Erinnerung
fuumlr unabhaumlngige Variable ist die Verteilung f(xy) gegeben durch das Produkt der Randverteilungen
f(xy) = fx(x) middot fy(y)
Im Fall eines 2-dimensionalen Histogramms Randverteilungen sind die Histogramme von x u y
Daraus laumlsst sich ein
Test auf Unabhaumlngigkeit konstruieren
Nullhypothese
folgt unter Annahme der Nullhypothese einer χsup2-Verteilung mit Ntot ndash bx ndash by Freiheitsgraden bxy Zahl der Bins in x und y
rarr p-value of chi2-independence test 21
x und y sind also wohl nicht unabhaumlngig Script Histogrampy bzw PhyPraKitpy
Qualitaumlt der Anpassung aus Likelihood
⊖ Likelihood-Methode zur Parameteranpassung liefert zunaumlchst keine Information zur Qualitaumlt einer Anpassung
Beispiel Likelihood der Gauszligverteilung
Referenz
χ2 o
bdquofully saturated modelldquo
in fruumlheren Diskussionen hatten wir diesen Term auf andere Art zu Null diskutiert ( bdquohaumlngt ja gar nicht von den Parametern ab -kann man also weglassenldquo )
Durch geeignete bdquoNormierungldquo kann Qualitaumltsinformation auch aus der Likelihood gewonnen werden Likelihood-Verhaumlltnis
der beobachteten Daten und (geeigneter) Referenzdaten
Qualitaumlt der Anpassung binned Likelihood-Fit
Beispiel 2 Likelihood der Poisson-Verteilung
Referenz
gof = goodness of fit
Auf analoge Weise lassen sich (effiziente) Pruumlfgroumlszligen auf Basis des Likelihood-Verhaumlltnisses auch fuumlr andere Verteilungen generieren
gofPoisson
konvergiert fuumlr groszlige N t gegen χsup2 2
Script gof-testpy
Mittelwert einer Stichprobe als Pruumlfgroumlszlige
n bdquostandard-normalverteilteldquo Zufallszahlen mit Mittelwert
wenn nicht bekannt ist nutzt man die Stichprobenvarianz
die normierte Groumlszlige folgt dann nicht der Gauszligverteilung
sondern der Studentschen t-Verteilung fuumlr n-1 Freiheitsgrade
insbesondere fuumlr kleine n viel groumlszligere Auslaumlufer als Gauszlig-Verteilung
Mittelwert einer Stichprobe als Pruumlfgroumlszlige rarr t-Verteilung verwenden
Studentsche t-Verteilung
1908 vom Guiness-Mitarbeiter WS Gossetunter dem PseudonymbdquoStudentldquo veroumlffentlicht
erste Anwendung Qualitaumltssicherung bei Bier der Marke Guinness
Anwendung Studentsche t-Verteilung
Haumlufige Fragestellung haben zwei unabhaumlngige Grundgesamtheiten (mit der gleichen Varianz) den selben Mittelwert
Nullhypothese x1 = x2 t-verteilte Pruumlfgroumlszlige mit nf = n1 + n2 ndash 2 Freiheitsgraden
mit
Wie vertraumlglich sind die Mittelwerte der (Noten-)Verteilungen
Studentscher t-Test t = 089 p -Wert aus t-Verteilung p = 37 Nullhypothese wird nicht verworfen
d h Unterschied nicht signifikant
Script t-testpy
Einseitiger oder zweiseitiger Test
Nullhypothese x1 = x2
Nullhypothese x1 nicht groumlszliger x2
Nullhypothese x2 nicht groumlszliger x1
kritische Region symmetrisch
Die bdquokritische Regionldquo zum Verwerfen der Null-Hypothese haumlngt von der Null-Hypothese selbst ab
kritische Region rechts (rechtsseitiger Test)
kritische Region links (linksseitiger Test)
Wird verworfen wenn mit hoher Signifikanz x1 gt x2 oder x2 gt x1
verwerfen wenn mit hoher Signifikanz x2 gt x1
verwerfen wenn mit hoher Signifikanz x1 gt x2
weitere Testverfahren
Welch-Test als Alternative zum Studentschen t-Test
zum Vergleich empirischer Daten auf gleichen Mittelwert bei ungleichen Varianzen der Stichproben
Kolmogorov-Smirnov-Test
zum Vergleich empirischer Daten mit vorgegebener Verteilungsfunktion zB sind die Daten Gauszlig-verteilt
Alternativen Anderson-Darling- oder Cramer-von Mises-Test
F-Test
auf gleiche Varianz von Stichproben
allg Testverfahren die auf dem Likelihood-Verhaumlltnis
beruhen
Optimale Wahl der Pruumlfgroumlszlige
Neyman ndash Pearson Lemma Bester Test fuumlr einfache Hypothesen
aumlquivalent
Problem exakte Likelihood oft unbekannt Moumlglichkeiten ndash (plausiblen) Ansatz fuumlr funktionale Form verwenden
ndash Monte Carlo ndash Simulation
Im Grenzfall groszliger Stichproben gibt es asymptotische Verteilungen fuumlr r(x) auch fuumlr zusammengesetzte Hypothesen (also mit
freien aus den Daten zu bestimmenden Parametern) (Wilkssches Theorem)
Klassifizierungsprobleme in hochdimen- sionalen Variablenraumlumen sind haumlufig
ndash ist der Buchstabe ein bdquoaldquo
ndash ist das Teilchen ein Elektron oder Myon
ndash ist der Kunde ein potentieller Betruumlger
ndash Signal oder Untergrund
ndash ist die E-Mail Spam
- hellip
Ausblick Klassifizierung als Hypothesentest
Gehoumlrt ein Ereignis zu einer von zwei oder mehreren Klassen ndash Zufallsereignis beschrieben durch n Zufallsvariable x1 hellip xn
ndash Klasse k beschrieben durch PDF fk(x1 hellip xn)
x
Gehoumlrt Punkt x zu Klasse 0 oder 1 Typische bdquoMVAldquo-Methoden zur Behandlung
allg Methoden des bdquoMachine Learningldquo ndash kuumlnstliche neuronale Netze ndash verstaumlrkte Entscheidungsbaumlume ndash Support-Vektoren ndash hellip (s VL Datenanalyse im Master)
x1
x2
Suche nach neuen Phaumlnomenen
Auch die Suche nach neuen Phaumlnomenen zB in der (Teilchen-)Physik ist ein HypothesentestFrage Ist Beobachtung vertraumlglich mit der bekannten Physik
- wenn ja Ausschlussgrenze auf neues Phaumlnomen bestimmen (geht nur wenn die Alternativhypothese genau festgelegt ist ndash Aufg der Theor Physik)
- wenn nein Signifikanz der Abweichung spezifizieren (als p-Wert)
Haumlufig fuumlhrt man bdquoZaumlhlexperimenteldquo zur Suche nach einem neuen Signal durch - relevant fuumlr die Beobachtung von n Ereignissen ist die Poisson-Verteilung
Nullhypothese μ = μ0
Alternative μ = μ0 + μ1 μ1 Beitrag durch neuen Effekt
Messung Beobachtung von nobs Ereignissen aufteilen in (erwarteten) Untergrund b = μ0 und Signal s = nobs ndash bp-Wert Wahrscheinlichkeit n ge nobs falls Nullpyhothese wahr
Beispiel Entdeckung des Higgs-Bosons
Bestimmung von Grenzen aus p-Werten
Untergrundhypothese Signalhypothese
Uumlbliche Art der Darstellung Signalgroumlszlige s den man mit Signifikanzniveau von 95 ausschlieszligen kann
b muss sehr gut bekannt modelliert seinwenn man den bdquoNormalfallldquo nicht kennt kann man nicht nach Abweichungen suchen
erhaltenes Limit fuumlr130 GeV
Haumlufigkeit
erwarteter Ausschluss
Beispiel Suche nach dem Higgs-Boson am LHC Stand 2011 Hypothesentest fuumlr
verschiedene H-Massen
Higgs-Entdeckung am LHCfrac12 Jahr spaumlter 4 Juli 2012 Klare Hinweise auf die Existenz eines Higgs-Bosons
Ereignisuumlberschuss in ZZ und γγ bei ATLAS und CMS
H rarr ZZ H rarr ZZ H rarr γγ H rarr γγ
Higgs-Entdeckung statistische Analyse
Bestimmung der Signalsignifikanz durch Vergleich mit der Untergrund-Hypothese und Bestimmung des bdquolokalen p-Wertsldquo SATLAS = 59 σ () (publizierte Ergebnisse) SCMS = 50σ ()
Zeitliche Entwicklung der Signal-Signifikanz Vorlaumlufige Ergebnisse vom 4 Juli 2012 der ATLAS-Kollaboration am LHC
Signal-Signifikanz vorlaumlufige Ergebnisse vom 4 Juli 2012 der CMS-Kollaboration am LHC
() Im Jargon der Teilchenphysiker entspricht die Angabe n σ dem entsprechenden Quantil der Gauszligverteilung
Qualitaumlt der Anpassung aus Likelihood
⊖ Likelihood-Methode zur Parameteranpassung liefert zunaumlchst keine Information zur Qualitaumlt einer Anpassung
Beispiel Likelihood der Gauszligverteilung
Referenz
χ2 o
bdquofully saturated modelldquo
in fruumlheren Diskussionen hatten wir diesen Term auf andere Art zu Null diskutiert ( bdquohaumlngt ja gar nicht von den Parametern ab -kann man also weglassenldquo )
Durch geeignete bdquoNormierungldquo kann Qualitaumltsinformation auch aus der Likelihood gewonnen werden Likelihood-Verhaumlltnis
der beobachteten Daten und (geeigneter) Referenzdaten
Qualitaumlt der Anpassung binned Likelihood-Fit
Beispiel 2 Likelihood der Poisson-Verteilung
Referenz
gof = goodness of fit
Auf analoge Weise lassen sich (effiziente) Pruumlfgroumlszligen auf Basis des Likelihood-Verhaumlltnisses auch fuumlr andere Verteilungen generieren
gofPoisson
konvergiert fuumlr groszlige N t gegen χsup2 2
Script gof-testpy
Mittelwert einer Stichprobe als Pruumlfgroumlszlige
n bdquostandard-normalverteilteldquo Zufallszahlen mit Mittelwert
wenn nicht bekannt ist nutzt man die Stichprobenvarianz
die normierte Groumlszlige folgt dann nicht der Gauszligverteilung
sondern der Studentschen t-Verteilung fuumlr n-1 Freiheitsgrade
insbesondere fuumlr kleine n viel groumlszligere Auslaumlufer als Gauszlig-Verteilung
Mittelwert einer Stichprobe als Pruumlfgroumlszlige rarr t-Verteilung verwenden
Studentsche t-Verteilung
1908 vom Guiness-Mitarbeiter WS Gossetunter dem PseudonymbdquoStudentldquo veroumlffentlicht
erste Anwendung Qualitaumltssicherung bei Bier der Marke Guinness
Anwendung Studentsche t-Verteilung
Haumlufige Fragestellung haben zwei unabhaumlngige Grundgesamtheiten (mit der gleichen Varianz) den selben Mittelwert
Nullhypothese x1 = x2 t-verteilte Pruumlfgroumlszlige mit nf = n1 + n2 ndash 2 Freiheitsgraden
mit
Wie vertraumlglich sind die Mittelwerte der (Noten-)Verteilungen
Studentscher t-Test t = 089 p -Wert aus t-Verteilung p = 37 Nullhypothese wird nicht verworfen
d h Unterschied nicht signifikant
Script t-testpy
Einseitiger oder zweiseitiger Test
Nullhypothese x1 = x2
Nullhypothese x1 nicht groumlszliger x2
Nullhypothese x2 nicht groumlszliger x1
kritische Region symmetrisch
Die bdquokritische Regionldquo zum Verwerfen der Null-Hypothese haumlngt von der Null-Hypothese selbst ab
kritische Region rechts (rechtsseitiger Test)
kritische Region links (linksseitiger Test)
Wird verworfen wenn mit hoher Signifikanz x1 gt x2 oder x2 gt x1
verwerfen wenn mit hoher Signifikanz x2 gt x1
verwerfen wenn mit hoher Signifikanz x1 gt x2
weitere Testverfahren
Welch-Test als Alternative zum Studentschen t-Test
zum Vergleich empirischer Daten auf gleichen Mittelwert bei ungleichen Varianzen der Stichproben
Kolmogorov-Smirnov-Test
zum Vergleich empirischer Daten mit vorgegebener Verteilungsfunktion zB sind die Daten Gauszlig-verteilt
Alternativen Anderson-Darling- oder Cramer-von Mises-Test
F-Test
auf gleiche Varianz von Stichproben
allg Testverfahren die auf dem Likelihood-Verhaumlltnis
beruhen
Optimale Wahl der Pruumlfgroumlszlige
Neyman ndash Pearson Lemma Bester Test fuumlr einfache Hypothesen
aumlquivalent
Problem exakte Likelihood oft unbekannt Moumlglichkeiten ndash (plausiblen) Ansatz fuumlr funktionale Form verwenden
ndash Monte Carlo ndash Simulation
Im Grenzfall groszliger Stichproben gibt es asymptotische Verteilungen fuumlr r(x) auch fuumlr zusammengesetzte Hypothesen (also mit
freien aus den Daten zu bestimmenden Parametern) (Wilkssches Theorem)
Klassifizierungsprobleme in hochdimen- sionalen Variablenraumlumen sind haumlufig
ndash ist der Buchstabe ein bdquoaldquo
ndash ist das Teilchen ein Elektron oder Myon
ndash ist der Kunde ein potentieller Betruumlger
ndash Signal oder Untergrund
ndash ist die E-Mail Spam
- hellip
Ausblick Klassifizierung als Hypothesentest
Gehoumlrt ein Ereignis zu einer von zwei oder mehreren Klassen ndash Zufallsereignis beschrieben durch n Zufallsvariable x1 hellip xn
ndash Klasse k beschrieben durch PDF fk(x1 hellip xn)
x
Gehoumlrt Punkt x zu Klasse 0 oder 1 Typische bdquoMVAldquo-Methoden zur Behandlung
allg Methoden des bdquoMachine Learningldquo ndash kuumlnstliche neuronale Netze ndash verstaumlrkte Entscheidungsbaumlume ndash Support-Vektoren ndash hellip (s VL Datenanalyse im Master)
x1
x2
Suche nach neuen Phaumlnomenen
Auch die Suche nach neuen Phaumlnomenen zB in der (Teilchen-)Physik ist ein HypothesentestFrage Ist Beobachtung vertraumlglich mit der bekannten Physik
- wenn ja Ausschlussgrenze auf neues Phaumlnomen bestimmen (geht nur wenn die Alternativhypothese genau festgelegt ist ndash Aufg der Theor Physik)
- wenn nein Signifikanz der Abweichung spezifizieren (als p-Wert)
Haumlufig fuumlhrt man bdquoZaumlhlexperimenteldquo zur Suche nach einem neuen Signal durch - relevant fuumlr die Beobachtung von n Ereignissen ist die Poisson-Verteilung
Nullhypothese μ = μ0
Alternative μ = μ0 + μ1 μ1 Beitrag durch neuen Effekt
Messung Beobachtung von nobs Ereignissen aufteilen in (erwarteten) Untergrund b = μ0 und Signal s = nobs ndash bp-Wert Wahrscheinlichkeit n ge nobs falls Nullpyhothese wahr
Beispiel Entdeckung des Higgs-Bosons
Bestimmung von Grenzen aus p-Werten
Untergrundhypothese Signalhypothese
Uumlbliche Art der Darstellung Signalgroumlszlige s den man mit Signifikanzniveau von 95 ausschlieszligen kann
b muss sehr gut bekannt modelliert seinwenn man den bdquoNormalfallldquo nicht kennt kann man nicht nach Abweichungen suchen
erhaltenes Limit fuumlr130 GeV
Haumlufigkeit
erwarteter Ausschluss
Beispiel Suche nach dem Higgs-Boson am LHC Stand 2011 Hypothesentest fuumlr
verschiedene H-Massen
Higgs-Entdeckung am LHCfrac12 Jahr spaumlter 4 Juli 2012 Klare Hinweise auf die Existenz eines Higgs-Bosons
Ereignisuumlberschuss in ZZ und γγ bei ATLAS und CMS
H rarr ZZ H rarr ZZ H rarr γγ H rarr γγ
Higgs-Entdeckung statistische Analyse
Bestimmung der Signalsignifikanz durch Vergleich mit der Untergrund-Hypothese und Bestimmung des bdquolokalen p-Wertsldquo SATLAS = 59 σ () (publizierte Ergebnisse) SCMS = 50σ ()
Zeitliche Entwicklung der Signal-Signifikanz Vorlaumlufige Ergebnisse vom 4 Juli 2012 der ATLAS-Kollaboration am LHC
Signal-Signifikanz vorlaumlufige Ergebnisse vom 4 Juli 2012 der CMS-Kollaboration am LHC
() Im Jargon der Teilchenphysiker entspricht die Angabe n σ dem entsprechenden Quantil der Gauszligverteilung
Qualitaumlt der Anpassung binned Likelihood-Fit
Beispiel 2 Likelihood der Poisson-Verteilung
Referenz
gof = goodness of fit
Auf analoge Weise lassen sich (effiziente) Pruumlfgroumlszligen auf Basis des Likelihood-Verhaumlltnisses auch fuumlr andere Verteilungen generieren
gofPoisson
konvergiert fuumlr groszlige N t gegen χsup2 2
Script gof-testpy
Mittelwert einer Stichprobe als Pruumlfgroumlszlige
n bdquostandard-normalverteilteldquo Zufallszahlen mit Mittelwert
wenn nicht bekannt ist nutzt man die Stichprobenvarianz
die normierte Groumlszlige folgt dann nicht der Gauszligverteilung
sondern der Studentschen t-Verteilung fuumlr n-1 Freiheitsgrade
insbesondere fuumlr kleine n viel groumlszligere Auslaumlufer als Gauszlig-Verteilung
Mittelwert einer Stichprobe als Pruumlfgroumlszlige rarr t-Verteilung verwenden
Studentsche t-Verteilung
1908 vom Guiness-Mitarbeiter WS Gossetunter dem PseudonymbdquoStudentldquo veroumlffentlicht
erste Anwendung Qualitaumltssicherung bei Bier der Marke Guinness
Anwendung Studentsche t-Verteilung
Haumlufige Fragestellung haben zwei unabhaumlngige Grundgesamtheiten (mit der gleichen Varianz) den selben Mittelwert
Nullhypothese x1 = x2 t-verteilte Pruumlfgroumlszlige mit nf = n1 + n2 ndash 2 Freiheitsgraden
mit
Wie vertraumlglich sind die Mittelwerte der (Noten-)Verteilungen
Studentscher t-Test t = 089 p -Wert aus t-Verteilung p = 37 Nullhypothese wird nicht verworfen
d h Unterschied nicht signifikant
Script t-testpy
Einseitiger oder zweiseitiger Test
Nullhypothese x1 = x2
Nullhypothese x1 nicht groumlszliger x2
Nullhypothese x2 nicht groumlszliger x1
kritische Region symmetrisch
Die bdquokritische Regionldquo zum Verwerfen der Null-Hypothese haumlngt von der Null-Hypothese selbst ab
kritische Region rechts (rechtsseitiger Test)
kritische Region links (linksseitiger Test)
Wird verworfen wenn mit hoher Signifikanz x1 gt x2 oder x2 gt x1
verwerfen wenn mit hoher Signifikanz x2 gt x1
verwerfen wenn mit hoher Signifikanz x1 gt x2
weitere Testverfahren
Welch-Test als Alternative zum Studentschen t-Test
zum Vergleich empirischer Daten auf gleichen Mittelwert bei ungleichen Varianzen der Stichproben
Kolmogorov-Smirnov-Test
zum Vergleich empirischer Daten mit vorgegebener Verteilungsfunktion zB sind die Daten Gauszlig-verteilt
Alternativen Anderson-Darling- oder Cramer-von Mises-Test
F-Test
auf gleiche Varianz von Stichproben
allg Testverfahren die auf dem Likelihood-Verhaumlltnis
beruhen
Optimale Wahl der Pruumlfgroumlszlige
Neyman ndash Pearson Lemma Bester Test fuumlr einfache Hypothesen
aumlquivalent
Problem exakte Likelihood oft unbekannt Moumlglichkeiten ndash (plausiblen) Ansatz fuumlr funktionale Form verwenden
ndash Monte Carlo ndash Simulation
Im Grenzfall groszliger Stichproben gibt es asymptotische Verteilungen fuumlr r(x) auch fuumlr zusammengesetzte Hypothesen (also mit
freien aus den Daten zu bestimmenden Parametern) (Wilkssches Theorem)
Klassifizierungsprobleme in hochdimen- sionalen Variablenraumlumen sind haumlufig
ndash ist der Buchstabe ein bdquoaldquo
ndash ist das Teilchen ein Elektron oder Myon
ndash ist der Kunde ein potentieller Betruumlger
ndash Signal oder Untergrund
ndash ist die E-Mail Spam
- hellip
Ausblick Klassifizierung als Hypothesentest
Gehoumlrt ein Ereignis zu einer von zwei oder mehreren Klassen ndash Zufallsereignis beschrieben durch n Zufallsvariable x1 hellip xn
ndash Klasse k beschrieben durch PDF fk(x1 hellip xn)
x
Gehoumlrt Punkt x zu Klasse 0 oder 1 Typische bdquoMVAldquo-Methoden zur Behandlung
allg Methoden des bdquoMachine Learningldquo ndash kuumlnstliche neuronale Netze ndash verstaumlrkte Entscheidungsbaumlume ndash Support-Vektoren ndash hellip (s VL Datenanalyse im Master)
x1
x2
Suche nach neuen Phaumlnomenen
Auch die Suche nach neuen Phaumlnomenen zB in der (Teilchen-)Physik ist ein HypothesentestFrage Ist Beobachtung vertraumlglich mit der bekannten Physik
- wenn ja Ausschlussgrenze auf neues Phaumlnomen bestimmen (geht nur wenn die Alternativhypothese genau festgelegt ist ndash Aufg der Theor Physik)
- wenn nein Signifikanz der Abweichung spezifizieren (als p-Wert)
Haumlufig fuumlhrt man bdquoZaumlhlexperimenteldquo zur Suche nach einem neuen Signal durch - relevant fuumlr die Beobachtung von n Ereignissen ist die Poisson-Verteilung
Nullhypothese μ = μ0
Alternative μ = μ0 + μ1 μ1 Beitrag durch neuen Effekt
Messung Beobachtung von nobs Ereignissen aufteilen in (erwarteten) Untergrund b = μ0 und Signal s = nobs ndash bp-Wert Wahrscheinlichkeit n ge nobs falls Nullpyhothese wahr
Beispiel Entdeckung des Higgs-Bosons
Bestimmung von Grenzen aus p-Werten
Untergrundhypothese Signalhypothese
Uumlbliche Art der Darstellung Signalgroumlszlige s den man mit Signifikanzniveau von 95 ausschlieszligen kann
b muss sehr gut bekannt modelliert seinwenn man den bdquoNormalfallldquo nicht kennt kann man nicht nach Abweichungen suchen
erhaltenes Limit fuumlr130 GeV
Haumlufigkeit
erwarteter Ausschluss
Beispiel Suche nach dem Higgs-Boson am LHC Stand 2011 Hypothesentest fuumlr
verschiedene H-Massen
Higgs-Entdeckung am LHCfrac12 Jahr spaumlter 4 Juli 2012 Klare Hinweise auf die Existenz eines Higgs-Bosons
Ereignisuumlberschuss in ZZ und γγ bei ATLAS und CMS
H rarr ZZ H rarr ZZ H rarr γγ H rarr γγ
Higgs-Entdeckung statistische Analyse
Bestimmung der Signalsignifikanz durch Vergleich mit der Untergrund-Hypothese und Bestimmung des bdquolokalen p-Wertsldquo SATLAS = 59 σ () (publizierte Ergebnisse) SCMS = 50σ ()
Zeitliche Entwicklung der Signal-Signifikanz Vorlaumlufige Ergebnisse vom 4 Juli 2012 der ATLAS-Kollaboration am LHC
Signal-Signifikanz vorlaumlufige Ergebnisse vom 4 Juli 2012 der CMS-Kollaboration am LHC
() Im Jargon der Teilchenphysiker entspricht die Angabe n σ dem entsprechenden Quantil der Gauszligverteilung
Mittelwert einer Stichprobe als Pruumlfgroumlszlige
n bdquostandard-normalverteilteldquo Zufallszahlen mit Mittelwert
wenn nicht bekannt ist nutzt man die Stichprobenvarianz
die normierte Groumlszlige folgt dann nicht der Gauszligverteilung
sondern der Studentschen t-Verteilung fuumlr n-1 Freiheitsgrade
insbesondere fuumlr kleine n viel groumlszligere Auslaumlufer als Gauszlig-Verteilung
Mittelwert einer Stichprobe als Pruumlfgroumlszlige rarr t-Verteilung verwenden
Studentsche t-Verteilung
1908 vom Guiness-Mitarbeiter WS Gossetunter dem PseudonymbdquoStudentldquo veroumlffentlicht
erste Anwendung Qualitaumltssicherung bei Bier der Marke Guinness
Anwendung Studentsche t-Verteilung
Haumlufige Fragestellung haben zwei unabhaumlngige Grundgesamtheiten (mit der gleichen Varianz) den selben Mittelwert
Nullhypothese x1 = x2 t-verteilte Pruumlfgroumlszlige mit nf = n1 + n2 ndash 2 Freiheitsgraden
mit
Wie vertraumlglich sind die Mittelwerte der (Noten-)Verteilungen
Studentscher t-Test t = 089 p -Wert aus t-Verteilung p = 37 Nullhypothese wird nicht verworfen
d h Unterschied nicht signifikant
Script t-testpy
Einseitiger oder zweiseitiger Test
Nullhypothese x1 = x2
Nullhypothese x1 nicht groumlszliger x2
Nullhypothese x2 nicht groumlszliger x1
kritische Region symmetrisch
Die bdquokritische Regionldquo zum Verwerfen der Null-Hypothese haumlngt von der Null-Hypothese selbst ab
kritische Region rechts (rechtsseitiger Test)
kritische Region links (linksseitiger Test)
Wird verworfen wenn mit hoher Signifikanz x1 gt x2 oder x2 gt x1
verwerfen wenn mit hoher Signifikanz x2 gt x1
verwerfen wenn mit hoher Signifikanz x1 gt x2
weitere Testverfahren
Welch-Test als Alternative zum Studentschen t-Test
zum Vergleich empirischer Daten auf gleichen Mittelwert bei ungleichen Varianzen der Stichproben
Kolmogorov-Smirnov-Test
zum Vergleich empirischer Daten mit vorgegebener Verteilungsfunktion zB sind die Daten Gauszlig-verteilt
Alternativen Anderson-Darling- oder Cramer-von Mises-Test
F-Test
auf gleiche Varianz von Stichproben
allg Testverfahren die auf dem Likelihood-Verhaumlltnis
beruhen
Optimale Wahl der Pruumlfgroumlszlige
Neyman ndash Pearson Lemma Bester Test fuumlr einfache Hypothesen
aumlquivalent
Problem exakte Likelihood oft unbekannt Moumlglichkeiten ndash (plausiblen) Ansatz fuumlr funktionale Form verwenden
ndash Monte Carlo ndash Simulation
Im Grenzfall groszliger Stichproben gibt es asymptotische Verteilungen fuumlr r(x) auch fuumlr zusammengesetzte Hypothesen (also mit
freien aus den Daten zu bestimmenden Parametern) (Wilkssches Theorem)
Klassifizierungsprobleme in hochdimen- sionalen Variablenraumlumen sind haumlufig
ndash ist der Buchstabe ein bdquoaldquo
ndash ist das Teilchen ein Elektron oder Myon
ndash ist der Kunde ein potentieller Betruumlger
ndash Signal oder Untergrund
ndash ist die E-Mail Spam
- hellip
Ausblick Klassifizierung als Hypothesentest
Gehoumlrt ein Ereignis zu einer von zwei oder mehreren Klassen ndash Zufallsereignis beschrieben durch n Zufallsvariable x1 hellip xn
ndash Klasse k beschrieben durch PDF fk(x1 hellip xn)
x
Gehoumlrt Punkt x zu Klasse 0 oder 1 Typische bdquoMVAldquo-Methoden zur Behandlung
allg Methoden des bdquoMachine Learningldquo ndash kuumlnstliche neuronale Netze ndash verstaumlrkte Entscheidungsbaumlume ndash Support-Vektoren ndash hellip (s VL Datenanalyse im Master)
x1
x2
Suche nach neuen Phaumlnomenen
Auch die Suche nach neuen Phaumlnomenen zB in der (Teilchen-)Physik ist ein HypothesentestFrage Ist Beobachtung vertraumlglich mit der bekannten Physik
- wenn ja Ausschlussgrenze auf neues Phaumlnomen bestimmen (geht nur wenn die Alternativhypothese genau festgelegt ist ndash Aufg der Theor Physik)
- wenn nein Signifikanz der Abweichung spezifizieren (als p-Wert)
Haumlufig fuumlhrt man bdquoZaumlhlexperimenteldquo zur Suche nach einem neuen Signal durch - relevant fuumlr die Beobachtung von n Ereignissen ist die Poisson-Verteilung
Nullhypothese μ = μ0
Alternative μ = μ0 + μ1 μ1 Beitrag durch neuen Effekt
Messung Beobachtung von nobs Ereignissen aufteilen in (erwarteten) Untergrund b = μ0 und Signal s = nobs ndash bp-Wert Wahrscheinlichkeit n ge nobs falls Nullpyhothese wahr
Beispiel Entdeckung des Higgs-Bosons
Bestimmung von Grenzen aus p-Werten
Untergrundhypothese Signalhypothese
Uumlbliche Art der Darstellung Signalgroumlszlige s den man mit Signifikanzniveau von 95 ausschlieszligen kann
b muss sehr gut bekannt modelliert seinwenn man den bdquoNormalfallldquo nicht kennt kann man nicht nach Abweichungen suchen
erhaltenes Limit fuumlr130 GeV
Haumlufigkeit
erwarteter Ausschluss
Beispiel Suche nach dem Higgs-Boson am LHC Stand 2011 Hypothesentest fuumlr
verschiedene H-Massen
Higgs-Entdeckung am LHCfrac12 Jahr spaumlter 4 Juli 2012 Klare Hinweise auf die Existenz eines Higgs-Bosons
Ereignisuumlberschuss in ZZ und γγ bei ATLAS und CMS
H rarr ZZ H rarr ZZ H rarr γγ H rarr γγ
Higgs-Entdeckung statistische Analyse
Bestimmung der Signalsignifikanz durch Vergleich mit der Untergrund-Hypothese und Bestimmung des bdquolokalen p-Wertsldquo SATLAS = 59 σ () (publizierte Ergebnisse) SCMS = 50σ ()
Zeitliche Entwicklung der Signal-Signifikanz Vorlaumlufige Ergebnisse vom 4 Juli 2012 der ATLAS-Kollaboration am LHC
Signal-Signifikanz vorlaumlufige Ergebnisse vom 4 Juli 2012 der CMS-Kollaboration am LHC
() Im Jargon der Teilchenphysiker entspricht die Angabe n σ dem entsprechenden Quantil der Gauszligverteilung
Anwendung Studentsche t-Verteilung
Haumlufige Fragestellung haben zwei unabhaumlngige Grundgesamtheiten (mit der gleichen Varianz) den selben Mittelwert
Nullhypothese x1 = x2 t-verteilte Pruumlfgroumlszlige mit nf = n1 + n2 ndash 2 Freiheitsgraden
mit
Wie vertraumlglich sind die Mittelwerte der (Noten-)Verteilungen
Studentscher t-Test t = 089 p -Wert aus t-Verteilung p = 37 Nullhypothese wird nicht verworfen
d h Unterschied nicht signifikant
Script t-testpy
Einseitiger oder zweiseitiger Test
Nullhypothese x1 = x2
Nullhypothese x1 nicht groumlszliger x2
Nullhypothese x2 nicht groumlszliger x1
kritische Region symmetrisch
Die bdquokritische Regionldquo zum Verwerfen der Null-Hypothese haumlngt von der Null-Hypothese selbst ab
kritische Region rechts (rechtsseitiger Test)
kritische Region links (linksseitiger Test)
Wird verworfen wenn mit hoher Signifikanz x1 gt x2 oder x2 gt x1
verwerfen wenn mit hoher Signifikanz x2 gt x1
verwerfen wenn mit hoher Signifikanz x1 gt x2
weitere Testverfahren
Welch-Test als Alternative zum Studentschen t-Test
zum Vergleich empirischer Daten auf gleichen Mittelwert bei ungleichen Varianzen der Stichproben
Kolmogorov-Smirnov-Test
zum Vergleich empirischer Daten mit vorgegebener Verteilungsfunktion zB sind die Daten Gauszlig-verteilt
Alternativen Anderson-Darling- oder Cramer-von Mises-Test
F-Test
auf gleiche Varianz von Stichproben
allg Testverfahren die auf dem Likelihood-Verhaumlltnis
beruhen
Optimale Wahl der Pruumlfgroumlszlige
Neyman ndash Pearson Lemma Bester Test fuumlr einfache Hypothesen
aumlquivalent
Problem exakte Likelihood oft unbekannt Moumlglichkeiten ndash (plausiblen) Ansatz fuumlr funktionale Form verwenden
ndash Monte Carlo ndash Simulation
Im Grenzfall groszliger Stichproben gibt es asymptotische Verteilungen fuumlr r(x) auch fuumlr zusammengesetzte Hypothesen (also mit
freien aus den Daten zu bestimmenden Parametern) (Wilkssches Theorem)
Klassifizierungsprobleme in hochdimen- sionalen Variablenraumlumen sind haumlufig
ndash ist der Buchstabe ein bdquoaldquo
ndash ist das Teilchen ein Elektron oder Myon
ndash ist der Kunde ein potentieller Betruumlger
ndash Signal oder Untergrund
ndash ist die E-Mail Spam
- hellip
Ausblick Klassifizierung als Hypothesentest
Gehoumlrt ein Ereignis zu einer von zwei oder mehreren Klassen ndash Zufallsereignis beschrieben durch n Zufallsvariable x1 hellip xn
ndash Klasse k beschrieben durch PDF fk(x1 hellip xn)
x
Gehoumlrt Punkt x zu Klasse 0 oder 1 Typische bdquoMVAldquo-Methoden zur Behandlung
allg Methoden des bdquoMachine Learningldquo ndash kuumlnstliche neuronale Netze ndash verstaumlrkte Entscheidungsbaumlume ndash Support-Vektoren ndash hellip (s VL Datenanalyse im Master)
x1
x2
Suche nach neuen Phaumlnomenen
Auch die Suche nach neuen Phaumlnomenen zB in der (Teilchen-)Physik ist ein HypothesentestFrage Ist Beobachtung vertraumlglich mit der bekannten Physik
- wenn ja Ausschlussgrenze auf neues Phaumlnomen bestimmen (geht nur wenn die Alternativhypothese genau festgelegt ist ndash Aufg der Theor Physik)
- wenn nein Signifikanz der Abweichung spezifizieren (als p-Wert)
Haumlufig fuumlhrt man bdquoZaumlhlexperimenteldquo zur Suche nach einem neuen Signal durch - relevant fuumlr die Beobachtung von n Ereignissen ist die Poisson-Verteilung
Nullhypothese μ = μ0
Alternative μ = μ0 + μ1 μ1 Beitrag durch neuen Effekt
Messung Beobachtung von nobs Ereignissen aufteilen in (erwarteten) Untergrund b = μ0 und Signal s = nobs ndash bp-Wert Wahrscheinlichkeit n ge nobs falls Nullpyhothese wahr
Beispiel Entdeckung des Higgs-Bosons
Bestimmung von Grenzen aus p-Werten
Untergrundhypothese Signalhypothese
Uumlbliche Art der Darstellung Signalgroumlszlige s den man mit Signifikanzniveau von 95 ausschlieszligen kann
b muss sehr gut bekannt modelliert seinwenn man den bdquoNormalfallldquo nicht kennt kann man nicht nach Abweichungen suchen
erhaltenes Limit fuumlr130 GeV
Haumlufigkeit
erwarteter Ausschluss
Beispiel Suche nach dem Higgs-Boson am LHC Stand 2011 Hypothesentest fuumlr
verschiedene H-Massen
Higgs-Entdeckung am LHCfrac12 Jahr spaumlter 4 Juli 2012 Klare Hinweise auf die Existenz eines Higgs-Bosons
Ereignisuumlberschuss in ZZ und γγ bei ATLAS und CMS
H rarr ZZ H rarr ZZ H rarr γγ H rarr γγ
Higgs-Entdeckung statistische Analyse
Bestimmung der Signalsignifikanz durch Vergleich mit der Untergrund-Hypothese und Bestimmung des bdquolokalen p-Wertsldquo SATLAS = 59 σ () (publizierte Ergebnisse) SCMS = 50σ ()
Zeitliche Entwicklung der Signal-Signifikanz Vorlaumlufige Ergebnisse vom 4 Juli 2012 der ATLAS-Kollaboration am LHC
Signal-Signifikanz vorlaumlufige Ergebnisse vom 4 Juli 2012 der CMS-Kollaboration am LHC
() Im Jargon der Teilchenphysiker entspricht die Angabe n σ dem entsprechenden Quantil der Gauszligverteilung
Einseitiger oder zweiseitiger Test
Nullhypothese x1 = x2
Nullhypothese x1 nicht groumlszliger x2
Nullhypothese x2 nicht groumlszliger x1
kritische Region symmetrisch
Die bdquokritische Regionldquo zum Verwerfen der Null-Hypothese haumlngt von der Null-Hypothese selbst ab
kritische Region rechts (rechtsseitiger Test)
kritische Region links (linksseitiger Test)
Wird verworfen wenn mit hoher Signifikanz x1 gt x2 oder x2 gt x1
verwerfen wenn mit hoher Signifikanz x2 gt x1
verwerfen wenn mit hoher Signifikanz x1 gt x2
weitere Testverfahren
Welch-Test als Alternative zum Studentschen t-Test
zum Vergleich empirischer Daten auf gleichen Mittelwert bei ungleichen Varianzen der Stichproben
Kolmogorov-Smirnov-Test
zum Vergleich empirischer Daten mit vorgegebener Verteilungsfunktion zB sind die Daten Gauszlig-verteilt
Alternativen Anderson-Darling- oder Cramer-von Mises-Test
F-Test
auf gleiche Varianz von Stichproben
allg Testverfahren die auf dem Likelihood-Verhaumlltnis
beruhen
Optimale Wahl der Pruumlfgroumlszlige
Neyman ndash Pearson Lemma Bester Test fuumlr einfache Hypothesen
aumlquivalent
Problem exakte Likelihood oft unbekannt Moumlglichkeiten ndash (plausiblen) Ansatz fuumlr funktionale Form verwenden
ndash Monte Carlo ndash Simulation
Im Grenzfall groszliger Stichproben gibt es asymptotische Verteilungen fuumlr r(x) auch fuumlr zusammengesetzte Hypothesen (also mit
freien aus den Daten zu bestimmenden Parametern) (Wilkssches Theorem)
Klassifizierungsprobleme in hochdimen- sionalen Variablenraumlumen sind haumlufig
ndash ist der Buchstabe ein bdquoaldquo
ndash ist das Teilchen ein Elektron oder Myon
ndash ist der Kunde ein potentieller Betruumlger
ndash Signal oder Untergrund
ndash ist die E-Mail Spam
- hellip
Ausblick Klassifizierung als Hypothesentest
Gehoumlrt ein Ereignis zu einer von zwei oder mehreren Klassen ndash Zufallsereignis beschrieben durch n Zufallsvariable x1 hellip xn
ndash Klasse k beschrieben durch PDF fk(x1 hellip xn)
x
Gehoumlrt Punkt x zu Klasse 0 oder 1 Typische bdquoMVAldquo-Methoden zur Behandlung
allg Methoden des bdquoMachine Learningldquo ndash kuumlnstliche neuronale Netze ndash verstaumlrkte Entscheidungsbaumlume ndash Support-Vektoren ndash hellip (s VL Datenanalyse im Master)
x1
x2
Suche nach neuen Phaumlnomenen
Auch die Suche nach neuen Phaumlnomenen zB in der (Teilchen-)Physik ist ein HypothesentestFrage Ist Beobachtung vertraumlglich mit der bekannten Physik
- wenn ja Ausschlussgrenze auf neues Phaumlnomen bestimmen (geht nur wenn die Alternativhypothese genau festgelegt ist ndash Aufg der Theor Physik)
- wenn nein Signifikanz der Abweichung spezifizieren (als p-Wert)
Haumlufig fuumlhrt man bdquoZaumlhlexperimenteldquo zur Suche nach einem neuen Signal durch - relevant fuumlr die Beobachtung von n Ereignissen ist die Poisson-Verteilung
Nullhypothese μ = μ0
Alternative μ = μ0 + μ1 μ1 Beitrag durch neuen Effekt
Messung Beobachtung von nobs Ereignissen aufteilen in (erwarteten) Untergrund b = μ0 und Signal s = nobs ndash bp-Wert Wahrscheinlichkeit n ge nobs falls Nullpyhothese wahr
Beispiel Entdeckung des Higgs-Bosons
Bestimmung von Grenzen aus p-Werten
Untergrundhypothese Signalhypothese
Uumlbliche Art der Darstellung Signalgroumlszlige s den man mit Signifikanzniveau von 95 ausschlieszligen kann
b muss sehr gut bekannt modelliert seinwenn man den bdquoNormalfallldquo nicht kennt kann man nicht nach Abweichungen suchen
erhaltenes Limit fuumlr130 GeV
Haumlufigkeit
erwarteter Ausschluss
Beispiel Suche nach dem Higgs-Boson am LHC Stand 2011 Hypothesentest fuumlr
verschiedene H-Massen
Higgs-Entdeckung am LHCfrac12 Jahr spaumlter 4 Juli 2012 Klare Hinweise auf die Existenz eines Higgs-Bosons
Ereignisuumlberschuss in ZZ und γγ bei ATLAS und CMS
H rarr ZZ H rarr ZZ H rarr γγ H rarr γγ
Higgs-Entdeckung statistische Analyse
Bestimmung der Signalsignifikanz durch Vergleich mit der Untergrund-Hypothese und Bestimmung des bdquolokalen p-Wertsldquo SATLAS = 59 σ () (publizierte Ergebnisse) SCMS = 50σ ()
Zeitliche Entwicklung der Signal-Signifikanz Vorlaumlufige Ergebnisse vom 4 Juli 2012 der ATLAS-Kollaboration am LHC
Signal-Signifikanz vorlaumlufige Ergebnisse vom 4 Juli 2012 der CMS-Kollaboration am LHC
() Im Jargon der Teilchenphysiker entspricht die Angabe n σ dem entsprechenden Quantil der Gauszligverteilung
weitere Testverfahren
Welch-Test als Alternative zum Studentschen t-Test
zum Vergleich empirischer Daten auf gleichen Mittelwert bei ungleichen Varianzen der Stichproben
Kolmogorov-Smirnov-Test
zum Vergleich empirischer Daten mit vorgegebener Verteilungsfunktion zB sind die Daten Gauszlig-verteilt
Alternativen Anderson-Darling- oder Cramer-von Mises-Test
F-Test
auf gleiche Varianz von Stichproben
allg Testverfahren die auf dem Likelihood-Verhaumlltnis
beruhen
Optimale Wahl der Pruumlfgroumlszlige
Neyman ndash Pearson Lemma Bester Test fuumlr einfache Hypothesen
aumlquivalent
Problem exakte Likelihood oft unbekannt Moumlglichkeiten ndash (plausiblen) Ansatz fuumlr funktionale Form verwenden
ndash Monte Carlo ndash Simulation
Im Grenzfall groszliger Stichproben gibt es asymptotische Verteilungen fuumlr r(x) auch fuumlr zusammengesetzte Hypothesen (also mit
freien aus den Daten zu bestimmenden Parametern) (Wilkssches Theorem)
Klassifizierungsprobleme in hochdimen- sionalen Variablenraumlumen sind haumlufig
ndash ist der Buchstabe ein bdquoaldquo
ndash ist das Teilchen ein Elektron oder Myon
ndash ist der Kunde ein potentieller Betruumlger
ndash Signal oder Untergrund
ndash ist die E-Mail Spam
- hellip
Ausblick Klassifizierung als Hypothesentest
Gehoumlrt ein Ereignis zu einer von zwei oder mehreren Klassen ndash Zufallsereignis beschrieben durch n Zufallsvariable x1 hellip xn
ndash Klasse k beschrieben durch PDF fk(x1 hellip xn)
x
Gehoumlrt Punkt x zu Klasse 0 oder 1 Typische bdquoMVAldquo-Methoden zur Behandlung
allg Methoden des bdquoMachine Learningldquo ndash kuumlnstliche neuronale Netze ndash verstaumlrkte Entscheidungsbaumlume ndash Support-Vektoren ndash hellip (s VL Datenanalyse im Master)
x1
x2
Suche nach neuen Phaumlnomenen
Auch die Suche nach neuen Phaumlnomenen zB in der (Teilchen-)Physik ist ein HypothesentestFrage Ist Beobachtung vertraumlglich mit der bekannten Physik
- wenn ja Ausschlussgrenze auf neues Phaumlnomen bestimmen (geht nur wenn die Alternativhypothese genau festgelegt ist ndash Aufg der Theor Physik)
- wenn nein Signifikanz der Abweichung spezifizieren (als p-Wert)
Haumlufig fuumlhrt man bdquoZaumlhlexperimenteldquo zur Suche nach einem neuen Signal durch - relevant fuumlr die Beobachtung von n Ereignissen ist die Poisson-Verteilung
Nullhypothese μ = μ0
Alternative μ = μ0 + μ1 μ1 Beitrag durch neuen Effekt
Messung Beobachtung von nobs Ereignissen aufteilen in (erwarteten) Untergrund b = μ0 und Signal s = nobs ndash bp-Wert Wahrscheinlichkeit n ge nobs falls Nullpyhothese wahr
Beispiel Entdeckung des Higgs-Bosons
Bestimmung von Grenzen aus p-Werten
Untergrundhypothese Signalhypothese
Uumlbliche Art der Darstellung Signalgroumlszlige s den man mit Signifikanzniveau von 95 ausschlieszligen kann
b muss sehr gut bekannt modelliert seinwenn man den bdquoNormalfallldquo nicht kennt kann man nicht nach Abweichungen suchen
erhaltenes Limit fuumlr130 GeV
Haumlufigkeit
erwarteter Ausschluss
Beispiel Suche nach dem Higgs-Boson am LHC Stand 2011 Hypothesentest fuumlr
verschiedene H-Massen
Higgs-Entdeckung am LHCfrac12 Jahr spaumlter 4 Juli 2012 Klare Hinweise auf die Existenz eines Higgs-Bosons
Ereignisuumlberschuss in ZZ und γγ bei ATLAS und CMS
H rarr ZZ H rarr ZZ H rarr γγ H rarr γγ
Higgs-Entdeckung statistische Analyse
Bestimmung der Signalsignifikanz durch Vergleich mit der Untergrund-Hypothese und Bestimmung des bdquolokalen p-Wertsldquo SATLAS = 59 σ () (publizierte Ergebnisse) SCMS = 50σ ()
Zeitliche Entwicklung der Signal-Signifikanz Vorlaumlufige Ergebnisse vom 4 Juli 2012 der ATLAS-Kollaboration am LHC
Signal-Signifikanz vorlaumlufige Ergebnisse vom 4 Juli 2012 der CMS-Kollaboration am LHC
() Im Jargon der Teilchenphysiker entspricht die Angabe n σ dem entsprechenden Quantil der Gauszligverteilung
Optimale Wahl der Pruumlfgroumlszlige
Neyman ndash Pearson Lemma Bester Test fuumlr einfache Hypothesen
aumlquivalent
Problem exakte Likelihood oft unbekannt Moumlglichkeiten ndash (plausiblen) Ansatz fuumlr funktionale Form verwenden
ndash Monte Carlo ndash Simulation
Im Grenzfall groszliger Stichproben gibt es asymptotische Verteilungen fuumlr r(x) auch fuumlr zusammengesetzte Hypothesen (also mit
freien aus den Daten zu bestimmenden Parametern) (Wilkssches Theorem)
Klassifizierungsprobleme in hochdimen- sionalen Variablenraumlumen sind haumlufig
ndash ist der Buchstabe ein bdquoaldquo
ndash ist das Teilchen ein Elektron oder Myon
ndash ist der Kunde ein potentieller Betruumlger
ndash Signal oder Untergrund
ndash ist die E-Mail Spam
- hellip
Ausblick Klassifizierung als Hypothesentest
Gehoumlrt ein Ereignis zu einer von zwei oder mehreren Klassen ndash Zufallsereignis beschrieben durch n Zufallsvariable x1 hellip xn
ndash Klasse k beschrieben durch PDF fk(x1 hellip xn)
x
Gehoumlrt Punkt x zu Klasse 0 oder 1 Typische bdquoMVAldquo-Methoden zur Behandlung
allg Methoden des bdquoMachine Learningldquo ndash kuumlnstliche neuronale Netze ndash verstaumlrkte Entscheidungsbaumlume ndash Support-Vektoren ndash hellip (s VL Datenanalyse im Master)
x1
x2
Suche nach neuen Phaumlnomenen
Auch die Suche nach neuen Phaumlnomenen zB in der (Teilchen-)Physik ist ein HypothesentestFrage Ist Beobachtung vertraumlglich mit der bekannten Physik
- wenn ja Ausschlussgrenze auf neues Phaumlnomen bestimmen (geht nur wenn die Alternativhypothese genau festgelegt ist ndash Aufg der Theor Physik)
- wenn nein Signifikanz der Abweichung spezifizieren (als p-Wert)
Haumlufig fuumlhrt man bdquoZaumlhlexperimenteldquo zur Suche nach einem neuen Signal durch - relevant fuumlr die Beobachtung von n Ereignissen ist die Poisson-Verteilung
Nullhypothese μ = μ0
Alternative μ = μ0 + μ1 μ1 Beitrag durch neuen Effekt
Messung Beobachtung von nobs Ereignissen aufteilen in (erwarteten) Untergrund b = μ0 und Signal s = nobs ndash bp-Wert Wahrscheinlichkeit n ge nobs falls Nullpyhothese wahr
Beispiel Entdeckung des Higgs-Bosons
Bestimmung von Grenzen aus p-Werten
Untergrundhypothese Signalhypothese
Uumlbliche Art der Darstellung Signalgroumlszlige s den man mit Signifikanzniveau von 95 ausschlieszligen kann
b muss sehr gut bekannt modelliert seinwenn man den bdquoNormalfallldquo nicht kennt kann man nicht nach Abweichungen suchen
erhaltenes Limit fuumlr130 GeV
Haumlufigkeit
erwarteter Ausschluss
Beispiel Suche nach dem Higgs-Boson am LHC Stand 2011 Hypothesentest fuumlr
verschiedene H-Massen
Higgs-Entdeckung am LHCfrac12 Jahr spaumlter 4 Juli 2012 Klare Hinweise auf die Existenz eines Higgs-Bosons
Ereignisuumlberschuss in ZZ und γγ bei ATLAS und CMS
H rarr ZZ H rarr ZZ H rarr γγ H rarr γγ
Higgs-Entdeckung statistische Analyse
Bestimmung der Signalsignifikanz durch Vergleich mit der Untergrund-Hypothese und Bestimmung des bdquolokalen p-Wertsldquo SATLAS = 59 σ () (publizierte Ergebnisse) SCMS = 50σ ()
Zeitliche Entwicklung der Signal-Signifikanz Vorlaumlufige Ergebnisse vom 4 Juli 2012 der ATLAS-Kollaboration am LHC
Signal-Signifikanz vorlaumlufige Ergebnisse vom 4 Juli 2012 der CMS-Kollaboration am LHC
() Im Jargon der Teilchenphysiker entspricht die Angabe n σ dem entsprechenden Quantil der Gauszligverteilung
Klassifizierungsprobleme in hochdimen- sionalen Variablenraumlumen sind haumlufig
ndash ist der Buchstabe ein bdquoaldquo
ndash ist das Teilchen ein Elektron oder Myon
ndash ist der Kunde ein potentieller Betruumlger
ndash Signal oder Untergrund
ndash ist die E-Mail Spam
- hellip
Ausblick Klassifizierung als Hypothesentest
Gehoumlrt ein Ereignis zu einer von zwei oder mehreren Klassen ndash Zufallsereignis beschrieben durch n Zufallsvariable x1 hellip xn
ndash Klasse k beschrieben durch PDF fk(x1 hellip xn)
x
Gehoumlrt Punkt x zu Klasse 0 oder 1 Typische bdquoMVAldquo-Methoden zur Behandlung
allg Methoden des bdquoMachine Learningldquo ndash kuumlnstliche neuronale Netze ndash verstaumlrkte Entscheidungsbaumlume ndash Support-Vektoren ndash hellip (s VL Datenanalyse im Master)
x1
x2
Suche nach neuen Phaumlnomenen
Auch die Suche nach neuen Phaumlnomenen zB in der (Teilchen-)Physik ist ein HypothesentestFrage Ist Beobachtung vertraumlglich mit der bekannten Physik
- wenn ja Ausschlussgrenze auf neues Phaumlnomen bestimmen (geht nur wenn die Alternativhypothese genau festgelegt ist ndash Aufg der Theor Physik)
- wenn nein Signifikanz der Abweichung spezifizieren (als p-Wert)
Haumlufig fuumlhrt man bdquoZaumlhlexperimenteldquo zur Suche nach einem neuen Signal durch - relevant fuumlr die Beobachtung von n Ereignissen ist die Poisson-Verteilung
Nullhypothese μ = μ0
Alternative μ = μ0 + μ1 μ1 Beitrag durch neuen Effekt
Messung Beobachtung von nobs Ereignissen aufteilen in (erwarteten) Untergrund b = μ0 und Signal s = nobs ndash bp-Wert Wahrscheinlichkeit n ge nobs falls Nullpyhothese wahr
Beispiel Entdeckung des Higgs-Bosons
Bestimmung von Grenzen aus p-Werten
Untergrundhypothese Signalhypothese
Uumlbliche Art der Darstellung Signalgroumlszlige s den man mit Signifikanzniveau von 95 ausschlieszligen kann
b muss sehr gut bekannt modelliert seinwenn man den bdquoNormalfallldquo nicht kennt kann man nicht nach Abweichungen suchen
erhaltenes Limit fuumlr130 GeV
Haumlufigkeit
erwarteter Ausschluss
Beispiel Suche nach dem Higgs-Boson am LHC Stand 2011 Hypothesentest fuumlr
verschiedene H-Massen
Higgs-Entdeckung am LHCfrac12 Jahr spaumlter 4 Juli 2012 Klare Hinweise auf die Existenz eines Higgs-Bosons
Ereignisuumlberschuss in ZZ und γγ bei ATLAS und CMS
H rarr ZZ H rarr ZZ H rarr γγ H rarr γγ
Higgs-Entdeckung statistische Analyse
Bestimmung der Signalsignifikanz durch Vergleich mit der Untergrund-Hypothese und Bestimmung des bdquolokalen p-Wertsldquo SATLAS = 59 σ () (publizierte Ergebnisse) SCMS = 50σ ()
Zeitliche Entwicklung der Signal-Signifikanz Vorlaumlufige Ergebnisse vom 4 Juli 2012 der ATLAS-Kollaboration am LHC
Signal-Signifikanz vorlaumlufige Ergebnisse vom 4 Juli 2012 der CMS-Kollaboration am LHC
() Im Jargon der Teilchenphysiker entspricht die Angabe n σ dem entsprechenden Quantil der Gauszligverteilung
Suche nach neuen Phaumlnomenen
Auch die Suche nach neuen Phaumlnomenen zB in der (Teilchen-)Physik ist ein HypothesentestFrage Ist Beobachtung vertraumlglich mit der bekannten Physik
- wenn ja Ausschlussgrenze auf neues Phaumlnomen bestimmen (geht nur wenn die Alternativhypothese genau festgelegt ist ndash Aufg der Theor Physik)
- wenn nein Signifikanz der Abweichung spezifizieren (als p-Wert)
Haumlufig fuumlhrt man bdquoZaumlhlexperimenteldquo zur Suche nach einem neuen Signal durch - relevant fuumlr die Beobachtung von n Ereignissen ist die Poisson-Verteilung
Nullhypothese μ = μ0
Alternative μ = μ0 + μ1 μ1 Beitrag durch neuen Effekt
Messung Beobachtung von nobs Ereignissen aufteilen in (erwarteten) Untergrund b = μ0 und Signal s = nobs ndash bp-Wert Wahrscheinlichkeit n ge nobs falls Nullpyhothese wahr
Beispiel Entdeckung des Higgs-Bosons
Bestimmung von Grenzen aus p-Werten
Untergrundhypothese Signalhypothese
Uumlbliche Art der Darstellung Signalgroumlszlige s den man mit Signifikanzniveau von 95 ausschlieszligen kann
b muss sehr gut bekannt modelliert seinwenn man den bdquoNormalfallldquo nicht kennt kann man nicht nach Abweichungen suchen
erhaltenes Limit fuumlr130 GeV
Haumlufigkeit
erwarteter Ausschluss
Beispiel Suche nach dem Higgs-Boson am LHC Stand 2011 Hypothesentest fuumlr
verschiedene H-Massen
Higgs-Entdeckung am LHCfrac12 Jahr spaumlter 4 Juli 2012 Klare Hinweise auf die Existenz eines Higgs-Bosons
Ereignisuumlberschuss in ZZ und γγ bei ATLAS und CMS
H rarr ZZ H rarr ZZ H rarr γγ H rarr γγ
Higgs-Entdeckung statistische Analyse
Bestimmung der Signalsignifikanz durch Vergleich mit der Untergrund-Hypothese und Bestimmung des bdquolokalen p-Wertsldquo SATLAS = 59 σ () (publizierte Ergebnisse) SCMS = 50σ ()
Zeitliche Entwicklung der Signal-Signifikanz Vorlaumlufige Ergebnisse vom 4 Juli 2012 der ATLAS-Kollaboration am LHC
Signal-Signifikanz vorlaumlufige Ergebnisse vom 4 Juli 2012 der CMS-Kollaboration am LHC
() Im Jargon der Teilchenphysiker entspricht die Angabe n σ dem entsprechenden Quantil der Gauszligverteilung
Beispiel Entdeckung des Higgs-Bosons
Bestimmung von Grenzen aus p-Werten
Untergrundhypothese Signalhypothese
Uumlbliche Art der Darstellung Signalgroumlszlige s den man mit Signifikanzniveau von 95 ausschlieszligen kann
b muss sehr gut bekannt modelliert seinwenn man den bdquoNormalfallldquo nicht kennt kann man nicht nach Abweichungen suchen
erhaltenes Limit fuumlr130 GeV
Haumlufigkeit
erwarteter Ausschluss
Beispiel Suche nach dem Higgs-Boson am LHC Stand 2011 Hypothesentest fuumlr
verschiedene H-Massen
Higgs-Entdeckung am LHCfrac12 Jahr spaumlter 4 Juli 2012 Klare Hinweise auf die Existenz eines Higgs-Bosons
Ereignisuumlberschuss in ZZ und γγ bei ATLAS und CMS
H rarr ZZ H rarr ZZ H rarr γγ H rarr γγ
Higgs-Entdeckung statistische Analyse
Bestimmung der Signalsignifikanz durch Vergleich mit der Untergrund-Hypothese und Bestimmung des bdquolokalen p-Wertsldquo SATLAS = 59 σ () (publizierte Ergebnisse) SCMS = 50σ ()
Zeitliche Entwicklung der Signal-Signifikanz Vorlaumlufige Ergebnisse vom 4 Juli 2012 der ATLAS-Kollaboration am LHC
Signal-Signifikanz vorlaumlufige Ergebnisse vom 4 Juli 2012 der CMS-Kollaboration am LHC
() Im Jargon der Teilchenphysiker entspricht die Angabe n σ dem entsprechenden Quantil der Gauszligverteilung
Higgs-Entdeckung am LHCfrac12 Jahr spaumlter 4 Juli 2012 Klare Hinweise auf die Existenz eines Higgs-Bosons
Ereignisuumlberschuss in ZZ und γγ bei ATLAS und CMS
H rarr ZZ H rarr ZZ H rarr γγ H rarr γγ
Higgs-Entdeckung statistische Analyse
Bestimmung der Signalsignifikanz durch Vergleich mit der Untergrund-Hypothese und Bestimmung des bdquolokalen p-Wertsldquo SATLAS = 59 σ () (publizierte Ergebnisse) SCMS = 50σ ()
Zeitliche Entwicklung der Signal-Signifikanz Vorlaumlufige Ergebnisse vom 4 Juli 2012 der ATLAS-Kollaboration am LHC
Signal-Signifikanz vorlaumlufige Ergebnisse vom 4 Juli 2012 der CMS-Kollaboration am LHC
() Im Jargon der Teilchenphysiker entspricht die Angabe n σ dem entsprechenden Quantil der Gauszligverteilung
Higgs-Entdeckung statistische Analyse
Bestimmung der Signalsignifikanz durch Vergleich mit der Untergrund-Hypothese und Bestimmung des bdquolokalen p-Wertsldquo SATLAS = 59 σ () (publizierte Ergebnisse) SCMS = 50σ ()
Zeitliche Entwicklung der Signal-Signifikanz Vorlaumlufige Ergebnisse vom 4 Juli 2012 der ATLAS-Kollaboration am LHC
Signal-Signifikanz vorlaumlufige Ergebnisse vom 4 Juli 2012 der CMS-Kollaboration am LHC
() Im Jargon der Teilchenphysiker entspricht die Angabe n σ dem entsprechenden Quantil der Gauszligverteilung