6 Test von statistischen Hypothesen
Empirische Wissenschaften arbeiten experimentell und stellen aufgrund von Beobach-tungen Hypothesen und Theorien auf. Diese Hypothesen sind vereinfachte Modelle derWirklichkeit. Die Methoden zur Erlangung neuer Erkenntnisse sind induktiv. Man ver-sucht, durch endlich viele Experimente und Beobachtungen auf eine allgemeine Regeloder Aussage zu schlie�en.
Die aufgestellten Hypothesen sind h�au�g sog. statistische Hypothesen. Sie sagenetwas �uber die Verteilung einer Zufallsvariablen voraus. Die Zufallsvariable wird nunim Experiment mehrmals realisiert. Man erh�alt dann eine Stichprobe, aufgrund dererman entscheiden (testen) will, ob man an der aufgestellten Hypothese festh�alt oder sieverwirft.
Grunds�atzlich ist eine statistische Hypothese weder veri�zierbar noch falsi�zierbar. DasErgebnis einer Entscheidung oder eines Tests mu� in Bezug auf die gemachten Beob-achtungen gesehen werden und ist prinzipiell etwas Provisorisches. Verwirft man eineHypothese, so ist dies nicht endg�ultig, d.h. ein Beweis f�ur die Falschheit der Hypothese.Man h�alt vielmehr an der Verwerfung der Hypothese bzw. an der sog. Alternativhy-pothese solange fest, bis evtl. neuere und umfassendere Beobachtungen und Daten zueiner Revision der getro�enen Entscheidung Anla� geben.
Die einzelnen Schritte bei der Erkenntnisbildung eines empirischen Wissenschaftlerssind im wesentlichen:
1. Aufstellen von statistischen Hypothesen aufgrund von Vermutungen, Vorwissenoder auch mit Hilfe explorativer Methoden
2. Gewinnung von empirischen Beobachtungen
3. Durchf�uhrung statistischer Tests
4. Beibehaltung oder Verwerfung der aufgestellten Hypothese
5. evtl. zur�uck zu Punkt 1
Gewinnt man mit Hilfe explorativerMethoden anhand einer Stichprobe eine Hypothese,so darf man die Hypothese nat�urlich nicht an der gleichen Stichprobe, sondern mu� siean einer neuen Stichprobe �uberpr�ufen.
216 6 Test von statistischen Hypothesen
6.1 Grundbegri�e der Testtheorie
Der Statistiker stellt vor Durchf�uhrung eines Versuchs eine statistische Hypothese auf,d.h. er tri�t eine Annahme �uber die Verteilung einer Zufallsvariablen X , z.B. �uber denMittelwert � oder die Standardabweichung � einer normalverteilten Zufallsgr�o�e oderdie Verteilungsfunktion F (x) einer Zufallsvariablen.
Liegt beispielsweise eine Vermutung vor, da� der Mittelwert � der normalverteiltenZufallsvariablen \Ertrag\ einen Wert von �0 hat, dann stellt man die Hypothese � = �0auf. Diese Hypothese hei�t Nullhypothese und wird allgemein so formuliert:
H0 : � = �0 (6.1)
Mit Hilfe einer Stichprobe vom Umfang n will man nun pr�ufen, ob das Ergebnis derStichprobe mit der Nullhypothese H0 im Widerspruch steht. Man f�uhrt also einenstatistischen Test durch und �uberpr�uft, ob die Nullhypothese abgelehnt werden mu�,oder ob eine solche Ablehnung nicht gerechtfertigt ist.
Beispiel:
Das F�ullgewicht einer Abf�ullmaschine sei eine (�; �2)-normalverteilte Zufallsvariable
X . Die Maschine soll Packungen mit einem Nettof�ullgewicht von 1 kg abf�ullen. Der
Abf�ullproze� liefert nicht ausschlie�lich Packungen mit exakt 1 kg F�ullgewicht, denn
die einzelnen F�ullmengen schwanken zuf�allig. Wenn die Maschine jedoch richtig einge-
stellt ist, sollte der Mittelwert � gleich dem geforderten Abf�ullgewicht von 1 kg sein.
Die Nullhypothese lautet in diesem Fall: H0 : � = 1 kg. Die Firma kontrolliert nun
den Abf�ullproze� durch Entnahme von Stichproben. Sie mu� darauf achten, da� der
Stichprobenmittelwert x nicht zu stark von 1 kg abweicht. Ist die Abweichung zu gro�,
d.h. wird die Nullhypothese verworfen, dann mu� die Maschine neu justiert werden.
Der empirische Mittelwert x einer Stichprobe wird selbstverst�andlich kaum mit dem ge-forderten Sollwert �0 �ubereinstimmen. Kleine zuf�allige Schwankungen nach oben oderunten sind aufgrund des zuf�alligen Charakters des Abf�ullprozesses in obigem Beispielzu erwarten. Wann sind aber diese kleinen, unvermeidlichen Abweichungen so gro�, da�man sie nicht mehr durch den Zufall bedingt erkl�aren kann? Man mu� also eine objek-tive Grenze zwischen den kleineren, rein zuf�alligen Abweichungen und den gr�o�eren,oder wie man auch sagt, den signi�kanten Abweichungen ziehen. Dazu ist noch zu
�uberlegen, in welcher Richtung die Abweichungen interessieren: Nach oben, nach untenoder in beiden Richtungen. Man mu� also eine sog. Alternativhypothese aufstellen,die mit H1 abgek�urzt wird.
Ist die Firma aus obigem Beispiel daran interessiert, nicht zuviel in die Packungen zuf�ullen, so lautet die Alternativhypothese:
H1 : � > �0 (6.2)
Kommt es dagegen darauf an, nicht zu wenig abzuf�ullen, so ist die Alternativhypothese:
H1 : � < �0 (6.3)
6.1 Grundbegri�e der Testtheorie 217
Die Alternativhypothesen (6.2) und (6.3) werden auch einseitige Alternativhypo-thesen genannt.
Soll das Abf�ullgewicht schlie�lich nicht zu klein und nicht zu gro� sein, dann lautet diezweiseitige Alternativhypothese:
H1 : � 6= �0 (6.4)
Die Nullhypothese k�onnte im Fall einseitiger Alternativhypothesen auch in analogereinseitiger Form formuliert werden:
H 0
0 : � � �0 gegen H1 : � > �0 bzw.H 0
0 : � � �0 gegen H1 : � < �0(6.5)
Es ist jedoch �ublich, die Nullhypothese in der zweiseitigen Form H0 : � = �0 zu formu-lieren, unabh�angig von der Alternativhypothese. Auf die praktische Durchf�uhrung desTests selbst hat die Formulierung keinen Ein u�. Es treten lediglich kleine Verschie-bungen bzgl. der Sicherheitswahrscheinlichkeit auf.
Wie bekommt man nun aufgrund einer Stichprobe Grenzen, die einen sog. Ableh-nungsbereich und einen sog. Nichtablehnungsbereich festlegen? Beim einseitigenTest H0 : � = �0 mit der Alternative H1 : � > �0 interessiert die kritische Gr�o�e c aufder x-Achse in Bild 6.1.
�0 c
Nichtablehnungsbereich
H0 wird nicht abgelehnt
Ablehnungsbereich
H0 wird abgelehnt
Bild 6.1: Ablehnungs- und Nichtablehnungsbereich beim einseitigen Test
Liegt der Stichprobenmittelwert x links von c, so wird die Nullhypothese H0 nichtabgelehnt, liegt er rechts davon, so wird H0 verworfen. Den Abstand zwischen �0 undc l�a�t man als Spielraum f�ur kleinere zuf�allige Schwankungen von x zu. Die Abweichungvon �0 wird jedoch signi�kant, wenn x in den dick gezeichneten Bereich f�allt.
Beim zweiseitigen Test H0 : � = �0 mit der Alternative H1 : � 6= �0 mu� man zweiGrenzen c1 und c2 bestimmen (Bild 6.2).
�0c1 c2
Ablehnungsbereich
H0 wird abgelehnt
Ablehnungsbereich
H0 wird abgelehnt
Nichtab-
lehnungs-
bereich
Bild 6.2: Ablehnungs- und Nichtablehnungsbereich beim zweiseitigen Test
218 6 Test von statistischen Hypothesen
Bei der praktischen Durchf�uhrung eines Tests berechnet man eine geeigneteTestgr�o�e,in die der zu testende Parameter (z.B. x) eingeht. Diese Testgr�o�e wird mit einementsprechenden Schwellenwert oder einer Testschranke verglichen. Schwellenwertebzw. Testschranken sind Fraktilen oder Grenzen der Verteilung der Testgr�o�e. DerVergleich der Testgr�o�e mit dem Schwellenwert f�uhrt zu einer Entscheidung zwischenAblehnung von H0 oder Nichtablehnung von H0.
Das Prinzip eines statistischen Tests kann auch folgenderma�en erkl�art werden. Manberechnet unter der Annahme der Nullhypothese die Wahrscheinlichkeit daf�ur, da�das festgestellte Ergebnis (z.B. x) oder ein \extremeres\ beobachtet werden kann. DieseWahrscheinlichkeit nennt man �Uberschreitungswahrscheinlichkeit, erreichtes Si-gni�kanzniveau oder auch p-Wert (p-value). Wenn diese Wahrscheinlichkeit \klein\ist, verwirft man H0 und erkl�artH1 f�ur signi�kant. Nach �ublichen Konventionen bedeu-tet \klein\, da� p kleiner als 5%, 1% oder 0:1% ist. Ansonsten wird H0 nicht abgelehnt.Man spricht h�au�g bei 5% Signi�kanzniveau von \signi�kant\, bei 1% Signi�kanzni-veau von \hoch signi�kant\ und bei 0:1% Signi�kanzniveau von \h�ochst signi�kant\.Es sei jedoch darauf hingewiesen, da� ein geringer p-Wert ein kleines Signi�kanzniveaubedeutet.
Bei einem statistischen Test k�onnen zwei Fehlentscheidungen vorkommen.
Ein Fehler 1. Art tritt auf, wenn man die Nullhypothese H0 verwirft, obwohl sierichtig ist. Die Wahrscheinlichkeit, einen solchen Fehler zu begehen, ist das Risiko1. Art und hei�t Irrtumswahrscheinlichkeit oder Signi�kanzniveau � des Tests.Die Gr�o�e 1 � � ist die entsprechende Sicherheitswahrscheinlichkeit. Bei einemeinseitigen Test, z.B. H0 : � = �0 gegen H1 : � > �0 ist die Irrtumswahrscheinlichkeitdurch die Beziehung P (X > c
��� = �0) = � gegeben, wenn c die Grenze zwischenAblehnungs- und Nichtablehnungsbereich ist (vgl. Tab. 6.1 und Bild 6.3).
Ein Fehler 2. Art tritt auf, wenn die Nullhypothese H0 nicht abgelehnt wird, obwohlsie falsch ist. Die Wahrscheinlichkeit daf�ur wird mit � bezeichnet und hei�t Risiko 2.Art. Die Gr�o�e 1�� gibt die Wahrscheinlichkeit an, einen Fehler 2. Art zu vermeidenund hei�t Macht oder G�ute des Tests (vgl. Tab. 6.1 und Bild 6.3).
wahrer (unbekannter) VerteilungsparameterAusfall des Tests H0 richtig (z.B. � = �0) H0 falsch (z.B. � = �1)
richtige Entscheidung Fehlentscheidung 2. ArtNichtablehnung mit der mit der
von H0 Sicherheitswahrscheinlichkeit Wahrscheinlichkeit1� � �
Fehlentscheidung 1. Art richtige EntscheidungAblehnung mit der mit dervon H0 Wahrscheinlichkeit Wahrscheinlichkeit
� 1� �
Tabelle 6.1: M�ogliche Entscheidungen beim Testen eines Parameters
6.1 Grundbegri�e der Testtheorie 219
Die Wahrscheinlichkeiten, einen Fehler 1. oder 2. Art zu begehen, h�angen von derGrenze c ab. Bild 6.3 zeigt, da� man diese Grenze nicht derart festlegen kann, da�beide Fehlerarten gleichzeitig klein werden. W�ahlt man das Risiko 1. Art klein, sokann trotzdem das Risiko 2. Art gro� ausfallen. Dies ist auch der Grund, warum mannicht sagt, \die Hypothese H0 wird angenommen\, sondern vorsichtiger formuliert,\die Hypothese H0 wird nicht abgelehnt\.
�0 �1c
��
Dichte von x,falls H0 zutri�t
Dichte von x,falls H1 zutri�t
Bild 6.3: Veranschaulichung der Fehlentscheidungen beim statistischen Test
Vor der Durchf�uhrung eines Tests legt der Testanwender die h�ochstens tolerierbare Irr-tumswahrscheinlichkeit bzw. das Signi�kanzniveau � fest. Ist die �Uberschreitungswahr-scheinlichkeit p kleiner oder gleich dem vorgegebenen �-Wert, so wird H0 zugunstenvon H1 abgelehnt.
Als Pauschalma�nahme zur Verringerung der Wahrscheinlichkeit � f�ur den Fehler 2.Art bzw. zur Steigerung der G�ute des Tests kann der Versuchsansteller eigentlich nurden Stichprobenumfang n vergr�o�ern. Theoretisch w�urde auch eine Verkleinerung von�2 bzw. s2 die G�ute verbessern. Der Versuchsansteller hat jedoch in der Regel daraufkeinen Ein u�.
Stehen mehrere Testverfahren f�ur eine Fragestellung zur Verf�ugung, so wird man selbst-verst�andlich das Verfahren anwenden, welches bei fester Irrtumswahrscheinlichkeit �und festem Stichprobenumfang n die h�ohere G�ute oder Macht besitzt.
Die Wahl der maximal in Kauf zu nehmenden Irrtumswahrscheinlichkeit �, also demSigni�kanzniveau, geschieht durch den Testansteller willk�urlich. Die Wahl von � =0:05, 0:01 oder 0:001 hat sich eingeb�urgert, ist aber nicht sachlich bzw. objektiv zubegr�unden.
Der Testansteller sollte sich jedoch klarmachen, da� bei festem Stichprobenumfang ndie G�ute des Tests mit abnehmendem � ebenfalls abf�allt (vgl. Bild 6.3) und solltedaher die M�oglichkeiten eines Fehlers 1. bzw. 2. Art gegeneinander abw�agen. Er mu�sich also fragen: Was ist schlimmer? Zu behaupten, die Sorte A ist besser als dieSorte B, obwohl in Wirklichkeit kein Unterschied im Ertrag vorhanden ist, oder einentats�achlich vorhandenen Ertragsunterschied nicht aufzudecken.
Man kann je nach Versuchsfrage verschiedene Strategien bei einem statistischen Testverfolgen. Man spricht von einer sog. Entdecker-Strategie, wenn man H0 verwer-fen will und daher ein gr�o�eres Risiko � und ein kleineres Risiko � akzeptiert. Ein
220 6 Test von statistischen Hypothesen
Versuchsansteller, der als Kritiker gegen die Alternative H1 eingestellt ist, wird sichentsprechend umgekehrt verhalten, d.h. ein kleineres Risiko � und ein gr�o�eres Risiko� akzeptieren.
Von einem sinnvollen Test sollte man nach Neyman und Pearson verlangen, da� dieWahrscheinlichkeit � f�ur einen Fehler 1. Art kleiner ist als die Wahrscheinlichkeit 1��, einen Fehler 2. Art zu vermeiden. Ein solcher Test wird auch unverzerrt (engl.unbiased) genannt. Ein verzerrter Test w�are so konstruiert, da� die Wahrscheinlichkeit,H0 imWahrheitsfall zu verwerfen, mindestens so gro� ist wie die Wahrscheinlichkeit,H0
im Falschheitsfall zu verwerfen. Eine solche Vorschrift w�urde ein Anwender sicherlichals unvern�unftig emp�nden.
Zeichnet man die G�ute oder die Macht eines Tests 1� �, d.h. die Wahrscheinlichkeit,die Nullhypothese abzulehnen, als Funktion des wahren Mittelwertunterschieds �1��0auf, so erh�alt man als Graph die sog. G�utefunktion (Bild 6.4).
�1 � �00
1� �
0:2
0:4
0:6
0:8
1:0
n = 30
n = 20
n = 10
Bild 6.4: G�utefunktion beim zweiseitigen Test f�ur verschiedene Stichprobenumf�angen und � = 5%
Man betrachtet auch h�au�g die Wahrscheinlichkeit, eine falsche Nullhypothese beizube-halten, d.h. also einen Fehler 2. Art zu machen. Diese Wahrscheinlichkeit � wird auchals Operationscharakteristik (kurz OC) bezeichnet. Die Operationscharakteristikergibt sich aus dem Komplement der G�utefunktion, also (vgl. Bild 6.4):
OC = Operationscharakteristik = 1�G�utefunktion (6.6)
Zur Beschreibung eines Tests kann man also entweder die G�utefunktion oder die Ope-rationscharakteristik heranziehen.
In der Praxis wird der Stichprobenumfang n h�au�g so festgelegt, da� die Fehler 1. und2. Art kleiner oder gleich festen Werten � bzw. � sind unter der Voraussetzung, da��1 ��0 � � ist (� vorgegeben). Der notwendige Stichprobenumfang n l�a�t sich im FallH0 : � = �0, H1 : � = �1 > �0 folgenderma�en bestimmen:
Unter H0 istX � �0
S=pn
t-verteilt mit n�1 Freiheitsgraden. Unter H1 istX � �1
S=pn
t-verteilt
mit n� 1 Freiheitsgraden.
6.1 Grundbegri�e der Testtheorie 221
Dann gilt:
P
�X � �0
S=pn
> tn�1;1��
���H0
�= P
�X > �0 + tn�1;1�� �
Spn
���H0
�= �
P
�X � �1
S=pn
< �tn�1;1�����H1
�= P
�X < �1 � tn�1;1�� �
Spn
���H1
�= �
Es ist �0 + tn�1;1�� �spn= �1 � tn�1;1�� �
spn, denn die beiden Ausdr�ucke stellen die
Testschranke c dar. Somit ist (tn�1;1�� + tn�1;1��) �spn= �1 � �0 = �. Also folgt f�ur
n:
n � s2
�2� (tn�1;1�� + tn�1;1��)
2(6.7)
Die Zahl n kann selbstverst�andlich nicht exakt berechnet werden, weil man n bereitskennen m�u�te, um tn�1;1�� und tn�1;1�� ablesen zu k�onnen. Man kann sich jedochrekursiv an den wahren Wert herantasten. Die Wahl von � h�angt von der Problem-stellung ab, d.h. welche Di�erenzen will man als signi�kant erkennen. Soll z.B. eineneue Sorte bei 10 kg=ha oder erst ab 50 kg=ha Ertragsunterschied als signi�kant besserbetrachtet werden? Diese Frage mu� der Versuchsansteller jeweils aus sachlogischen�Uberlegungen entscheiden. Wird der Test zweiseitig durchgef�uhrt, so folgt analog zu(6.7) die Gleichung:
n � s2
�2� �tn�1;1��=2 + tn�1;1��=2
�2(6.8)
Es gibt einfache Computerprogramme, die die Anzahl n der notwendigen Stichpro-benelemente bei gegebenen Fehlern 1. und 2. Art berechnen oder auch umgekehrt dieFehler 1. und 2. Art ermitteln, wenn der Stichprobenumfang n vorgegeben ist. Einsolches Programm wird in Abschnitt 6.9 vorgestellt.
222 6 Test von statistischen Hypothesen
6.2 Test von Erwartungswerten
Im folgenden Abschnitt werden Tests f�ur Erwartungs- oder Mittelwerte von Normal-verteilungen vorgestellt. Der Erwartungswert ist ein spezieller Parameter, der �uber dieLage oder die Lokation der Verteilung Auskunft gibt. Man spricht daher auch vonLokationstests.
6.2.1 t-Test f�ur den Mittelwert bei unbekanntem �
Der t Test f�ur den Erwartungswert bei unbekannter Streuung � vergleicht aufgrundeiner Stichprobe den Erwartungswert � einer normalverteilten Grundgesamtheit miteinem hypothetischen oder vermuteten Wert �0. Aus der Stichprobe vom Umfang n
berechnet man mit den Stichprobenwerten x1; x2; : : : ; xn, die einer (�; �2)-normalver-
teilten Grundgesamtheit entnommen wurden, die Testgr�o�e t0 nach Gleichung (6.9).Diese Testgr�o�e ist als Realisation einer t-verteilten Zufallsgr�o�e mit � = �0 aufzufas-sen.
t0 =x� �0
s=pn
(6.9)
Der Test der Nullhypothese H0 erfolgt beim vorgew�ahlten Signi�kanzniveau � je nachAlternativhypothese H1:
1. H0 : � = �0 H1 : � < �0 (einseitige Hypothese)
Ist t0 < �tn�1;1��, dann wird die Nullhypothese H0 auf dem Signi�kanzniveau �
abgelehnt. Im anderen Fall besteht kein Grund zur Ablehnung.
2. H0 : � = �0 H1 : � > �0 (einseitige Hypothese)
Ist t0 > tn�1;1��, dann wird die Nullhypothese H0 auf dem Signi�kanzniveau �
abgelehnt, andernfalls erfolgt keine Ablehnung.
3. H0 : � = �0 H1 : � 6= �0 (zweiseitige Hypothese)
Ist jt0j > tn�1;1��=2, dann wird die Nullhypothese H0 beim Signi�kanzniveau �
abgelehnt, ansonsten kann H0 nicht abgelehnt werden.
Das Testschema in Kurzform zeigt Tab. 6.2.
In der Praxis wird man i.a. nicht nur eine dichotome Entscheidung zwischen Ablehnungund Nichtablehnung von H0 auf einem festen Signi�kanzniveau tre�en bzw. protokol-lieren. Vorzuziehen ist in jedem Fall die Angabe des p-Werts. Daran kann der Anwenderdie sachlogische Relevanz eines E�ekts bzw. eines Mittelwertunterschieds selbst beur-teilen.
Freiheitsgrade spielen in der gesamten beurteilenden Statistik eine entscheidendeRolle und tauchen fast immer als wesentliches Indiz f�ur eine Testgr�o�e auf. Der Begri�der Freiheitsgrade in der Statistik lehnt sich an den gleichnamigen Begri� in der Physikan. Allerdings deutet er hier nicht wie in der Mechanik eine unabh�angige Verschiebungeines Massenpunkts an, sondern bedeutet analog eine unabh�angige Bestimmung oderMessung f�ur einen Stichprobenwert. Das statistische Ma� des arithmetischen Mittels x
6.2 Test von Erwartungswerten 223
Voraussetzung: Normalverteilung, � unbekannt
Testgr�o�e: t0 =x� �0
s=pn
H0: � = �0
H1: Ablehnung von H0, wenn
� < �0 t0 < �tn�1;1��� > �0 t0 > tn�1;1�� (Tab. A.4)
� 6= �0 jt0j > tn�1;1��=2
Tabelle 6.2: t-Test f�ur den Erwartungswert bei unbekanntem �
kommt in der Pr�ufgr�o�e t des t-Tests vor. Betrachtet man eine Stichprobe von 5Werten,so gilt: x = (x1+x2+x3+x4+x5)=5. Es gibt unendlich viele M�oglichkeiten f�ur Me�wertex1 bis x5, so da� ein festes x zustande kommt. Die Unabh�angigkeit bzw. die freieAuswahl besteht jedoch nur f�ur 4 Me�werte, der 5. liegt dann aufgrund der Berechnungfest. Darum sagt man in diesem Fall, da� 4 Freiheitsgrade existieren. Allgemein hatman bei n Me�werten und einer statistischen Ma�zahl (z.B. x oder s) entsprechendn�1 Freiheitsgrade. Auch die Standardabweichung s hat n�1 Freiheitsgrade, d.h. beifestem Wert von s und x kann man n� 1 Beobachtungswerte xi beliebig variieren, dern-te liegt dann bereits fest. Darum sagt man schlie�lich, die Testgr�o�e t0, in der x unds vorkommen, hat n� 1 Freiheitsgrade.
Beispiele:
1. Eine Ladenkette fordert von den Erzeugern f�ur Chinakohl ein mittleres Kopfgewicht
von mindestens 1000 g. Es wird eine Stichprobe aus einer Lieferung gezogen und
folgende Kopfgewichte bestimmt:
Kopf 1 2 3 4 5 6 7
Gewicht [g] 920 975 1030 910 955 925 1010
Es soll auf einem Signi�kanzniveau von 0:05 �uberpr�uft werden, ob das mittlere
Kopfgewicht der Forderung entspricht. Der Test erfolgt einseitig, da h�ohere Kopf-
gewichte nat�urlich zugelassen sind. Die Null- und Alternativhypothese lauten also
H0 : � = 1000 g gegen H1 : � < 1000 g.
Der Mittelwert ist x = 960:7 g, die Standardabweichung ist s = 46:5 g.
Die Testgr�o�e lautet t0 =x� �0
s=pn
=960:7� 1000:0
46:5=p7
= �2:236.
Es liegen 7 � 1 = 6 Freiheitsgrade vor. Die t6;0:95-Fraktile kann aus Tab. A.4 im
Anhang bestimmt werden zu t6;0:95 = 1:943. Damit folgt:
�2:236 = t0 < �t6;0:95 = �1:943
224 6 Test von statistischen Hypothesen
Also wirdH0 auf dem Signi�kanzniveau 0:05 zugunsten von H1 abgelehnt (vgl. Tab.
6.2).
Der p-Wert bei Ablehnung der Nullhypothese ist kleiner als 5%. Er liegt etwa in
der Mitte zwischen 0:05 und 0:025, denn t6;0:975 = 2:447 (vgl. Tab. A.4).
2. In M�unchen wurde an einem Sommertag der Ozongehalt der Luft an f�unf verschie-
denen Me�stellen bestimmt:
Me�stelle 1 2 3 4 5
Ozongehalt [�g=m3] 114 128 130 118 123
�Uberschreitet der mittlere Ozongehalt bei einem 5%-Signi�kanzniveau den Grenz-
wert von 120 �g=m3, so mu� eine Warnung der Bev�olkerung erfolgen.
Die Daten werden mit MINITAB ausgewertet. Mit dem set-Befehl werden die Me�-
werte in Spalte 1 eingelesen. Das Kommando ttest 120 c1 f�uhrt den t-Test mit
�0 = 120 �g=m3 f�ur die Werte in Spalte 1 durch. Das Subkommando alternative
1 testet die Alternativhypothese � > �0. Gibt man im Subkommando -1 an, so lau-
tet H1 : � < �0, wird das Subkommando weggelassen, dann erfolgt der zweiseitige
Test, also: H1 : � 6= �0.
MTB > set c1
DATA> 114 128 130 118 123
DATA> end
MTB > ttest 120 c1;
SUBC> alternative 1.
TEST OF MU = 120.000 VS MU G.T. 120.000
N MEAN STDEV SE MEAN T P VALUE
C1 5 122.600 6.693 2.993 0.87 0.22
MINITAB gibt die Hypothesen H0 : MU = 120.000 und H1 : MU G.T. 120.000
(G.T. von engl. greater than) aus. Die Testgr�o�e ist t0 = 0:87. Anstatt ein Signi-
�kanzniveau vorzugeben, berechnen die meisten Statistikprogramme den p-Wert,
der in Computerprogrammen meist mit P VALUE bezeichnet wird. Der p-Wert ist ja
gerade das aufgrund der Daten bzw. der Testgr�o�e erreichte Signi�kanzniveau, also
die Wahrscheinlichkeit, unter Annahme von H0 einen ebenso gro�en oder extreme-
ren Wert der Testgr�o�e zu erhalten. Im vorliegenden Fall k�onnte die Nullhypothese
allenfalls auf einem Signi�kanzniveau von � = 22% abgelehnt werden. Bei � = 5%kann man H0 nicht verwerfen. Mit anderen Worten: Man kann nicht behaupten, da�
der mittlere Ozongehalt signi�kant (auf dem 5%-Niveau) gr�o�er als der Grenzwertvon 120 �g=m3 ist.
6.2 Test von Erwartungswerten 225
3. Eine Maschine zur Abf�ullung von Mehl in Papiert�uten ist auf ein F�ullgewicht von
500 g eingestellt. Es wird vorausgesetzt, da� das Abf�ullgewicht normalverteilt und
die Streuung unbekannt ist. Auf dem 10%-Signi�kanzniveau, d.h. bei maximal 10%Irrtumswahrscheinlichkeit, soll durch eine Stichprobe vom Umfang n = 6 �uberpr�uftwerden, ob das mittlere Gewicht von 500 g eingehalten wird.
Stichprobe 1 2 3 4 5 6
F�ullgewicht [g] 490 496 506 492 502 499
Der zweiseitige Test H0 : � = 500 g gegen H1 : � 6= 500 g erfolgt in MINITAB mit
dem ttest-Befehl ohne Angabe eines Subkommandos.
MTB > name c1 'Gewicht'
MTB > set 'Gewicht'
DATA> 490 496 506 492 502 499
DATA> end
MTB > ttest 500 'Gewicht'
TEST OF MU = 500.000 VS MU N.E. 500.000
N MEAN STDEV SE MEAN T P VALUE
Gewicht 6 497.500 6.058 2.473 -1.01 0.36
Die Pr�ufgr�o�e ist t0 = �1:01 bei 5 Freiheitsgraden. Dies ist der negative Wert der
t5;1�0:36=2 = t5;0:82-Fraktilen, d.h. auf einem Signi�kanzniveau von � � 36% oder
h�oher k�onnte H0 abgelehnt werden, was allerdings unvern�unftig w�are. Bei � = 10%ist eine Ablehnung von H0 jedoch nicht m�oglich.
6.2.2 z-Test f�ur den Mittelwert bei bekanntem �
Falls � bekannt ist, kann der Test des Mittelwerts auf eine normalverteilte Testgr�o�ezur�uckgef�uhrt werden. Man ben�otigt dann die t-Verteilung mit ihren Freiheitsgradennicht. Unter der Annahme der Nullhypothese H0 : � = �0 ist das Stichprobenmittel X(�; �2=n)-normalverteilt. Die Testgr�o�e z0 lautet in diesem Fall:
z0 =x� �0
�=pn
(6.10)
Der Test der Nullhypothese H0 erfolgt beim vorgew�ahlten Signi�kanzniveau � prin-zipiell wie bei unbekannter Varianz. Anstelle der t-Fraktilen sind in diesem Fall dieu-Fraktilen1 bzw. die �-Grenzen der Standardnormalverteilung zu verwenden.
Das Testschema in Kurzform zeigt Tab. 6.3.
Es sei noch angemerkt, da� �2 in den meisten F�allen nicht bekannt ist. Die praktischeBedeutung des z-Tests ist deshalb sehr gering.
1Der Test wird deshalb manchmal auch als u-Test bezeichnet.
226 6 Test von statistischen Hypothesen
Voraussetzung: Normalverteilung, � bekannt
Testgr�o�e: z0 =x� �0
�=pn
H0 : � = �0
H1 : Ablehnung von H0, wenn
� < �0 z0 < �u1��� > �0 z0 > u1�� (Tab. A.2)
� 6= �0 jz0j > u1��=2 = �1��
Tabelle 6.3: z-Test f�ur den Erwartungswert bei bekanntem �
Beispiel:
Ein Voltmeter zur Messung der elektrischen Spannung �uber einem Widerstand hat
laut Herstellerangabe eine Standardabweichung von 0:5 V bei der Spannung 50 V. DasGer�at sollte neu justiert werden, wenn auf 5%-Signi�kanzniveau die mittlere Spannungvon diesem Wert abweicht. Es wird eine Spannung von 50 V angelegt und 10 mal
gemessen.
Messung 1 2 3 4 5 6 7 8 9 10
Spannung [V] 49:8 50:1 48:9 49:4 51:0 48:8 49:3 49:4 49:9 50:0
Die Nullhypothese H0 : �U = 50 V wird gegen die zweiseitige Alternative H1 : �U 6=50 V getestet, da Abweichungen weder nach oben noch nach unten erw�unscht sind. Der
Mittelwert ist U = 49:66 V. Damit lautet die Testgr�o�e:
z0 =U � �U
�U=pn=
49:66 V � 50:00 V
0:5 V=p10
= �2:15
Die 97:5%-Fraktile bzw. 95%-Grenze der Standardnormalverteilung wird in Tab. A.2
im Anhang abgelesen zu u0:975 = �0:95 = 1:96.
Damit folgt: jz0j = 2:15 > 1:96 = u0:975 = �0:95
Die Nullhypothese wird zugunsten der Alternativhypothese abgelehnt. Zum Signi�-
kanzniveau von 5% ist also statistisch gesichert, da� der mittlere Me�wert des Ger�ats
bei einer anliegenden Spannung von 50 V vom Sollwert abweicht.
In MINITAB dient der Befehl ztest ohne Subkommando alternative zur Durchf�uh-
rung des zweiseitigen z-Tests. Einseitige Tests k�onnen mit den Optionen alternative
1 bzw. alternative -1 vorgenommen werden.
6.2 Test von Erwartungswerten 227
MTB > set c1
DATA> 49.8 50.1 48.9 49.4 51.0 48.8 49.3 49.4 49.9 50.0
DATA> end
MTB > ztest 50 0.5 c1
TEST OF MU = 50.000 VS MU N.E. 50.000
THE ASSUMED SIGMA = 0.500
N MEAN STDEV SE MEAN Z P VALUE
C1 10 49.660 0.647 0.158 -2.15 0.032
Der p-Wert ist hier 3:2%. Die Nullhypothese H0 kann also auf Signi�kanzniveaus, die
gr�o�er als 0:032 sind, abgelehnt werden.
6.2.3 Vertrauensintervalle f�ur den Mittelwert
Anstelle des t- und z-Tests kann man auch ein K% = 1 � �-Vertrauensintervall f�urden unbekannten Mittelwert bestimmen und pr�ufen, ob der Sollwert in diesem Intervallliegt. Ist dies nicht der Fall, so kann die Nullhypothese H0 : � = �0 abgelehnt werden.
Die Vertrauensintervalle bei unbekannter Varianz lauten (vgl. Kap. 5.6):
V:I:
��1 < � � x+ tn�1;1�� �
spn
�1��
(einseitig)
V:I:
�x� tn�1;1�� �
spn� � < +1
�1��
(einseitig)
V:I:
�x� tn�1;1��=2 �
spn� � � x+ tn�1;1��=2 �
spn
�1��
(zweiseitig)
(6.11)
Bei bekannter Varianz sind die Vertrauensintervalle (vgl. Kap. 5.2):
V:I:
��1 < � � x+ u1�� �
�pn
�1��
(einseitig)
V:I:
�x� u1�� �
�pn� � < +1
�1��
(einseitig)
V:I:
�x� u1��=2 �
�pn� � � x+ u1��=2 �
�pn
�1��
(zweiseitig)
(6.12)
228 6 Test von statistischen Hypothesen
Beispiel:
Das einseitige nach oben o�ene 95%-Vertrauensintervall f�ur den unbekannten Mittel-
wert des Ozongehalts der Luft im Beispiel auf Seite 224 wird mit dem Mittelwert
x = 122:6 und der Standardabweichung s = 6:7 sowie der Fraktilen t4;0:95 = 2:132 (vgl.Tab. A.4 im Anhang) berechnet:
V:I:
�122:6� 2:132 � 6:7p
5� � <1
�0:95
= V:I: f116:2 � � <1g0:95
Der Grenzwert von 120 �g=m3 ist im einseitigen 95%-Vertrauensintervall des mittlerenOzongehalts der Luft enthalten. Infolgedessen kann die Hypothese, da� der mittlere
Ozongehalt gleich 120 �g=m3 ist, auf 5%-Signi�kanzniveau nicht zugunsten der Alter-
nativhypothese, da� der Ozongehalt gr�o�er als der Grenzwert 120 �g=m3 ist, verworfen
werden. W�urde der Grenzwert allerdings auf 110 �g=m3 reduziert, dann m�u�te eine
Warnung der Bev�olkerung erfolgen, weil man dann die Nullhypothese signi�kant ab-
lehnen k�onnte.
Ein 1 � �-Vertrauensintervall enth�alt alle hypothetischen Werte �0, f�ur die aufgrundeiner vorliegenden Stichprobe die Nullhypothese H0 : � = �0 nicht abgelehnt werdenkann. Umgekehrt ist sofort ersichtlich, f�ur welche Werte von �0 die Nullhypothese aufdem Signi�kanzniveau � abgelehnt werden mu�. Ein Vertrauensintervall liefert alsomehr Information als ein Testergebnis allein.
6.3 Vergleich zweier Erwartungswerte 229
6.3 Vergleich zweier Erwartungswerte
In vielen praktischen Fragestellungen will man zwei verschiedene Dinge miteinandervergleichen, z.B. die Wirksamkeit zweier Medikamente, den Ertrag von zwei Getrei-desorten, die Inhaltssto�e zweier Futtermittel, den Schadsto�aussto� zweier Autotypenusw. Die Frage, ob das eine besser oder schlechter ist als das andere, bzw. ob sich diebeiden unterscheiden, kann auf den t-Test zum Testen des Mittelwerts zur�uckgef�uhrtwerden. Der Test pr�uft die Nullhypothese, da� zwischen zwei Sorten, Medikamenteno.�a. kein Unterschied existiert im Gegensatz zu einer Alternativhypothese, z.B. Sorte 1hat einen h�oheren Ertrag als Sorte 2, oder die beiden Medikamente unterscheiden sichin ihrer Wirksamkeit. Kann man die Nullhypothese nicht ablehnen, so wird man in derRegel die bequemere oder billigere L�osung verwenden. Kann die Nullhypothese abge-lehnt werden, so ist beispielsweise eine Sorte als ertragreicher oder die Wirksamkeitzweier Medikamente als unterschiedlich erkannt worden, selbstverst�andlich mit einergewissen Irrtumswahrscheinlichkeit.
Zur Herleitung eines Tests zum Vergleich zweier Erwartungswerte geht man folgen-derma�en vor: Eine Grundgesamtheit X sei (�x; �
2)- und eine Grundgesamtheit Y(�y ; �
2)-normalverteilt. Die Parameter �X , �Y und � seien unbekannt. Die Streuung�2 soll jedoch in beiden Grundgesamtheiten gleich sein (wie man die Hypothese derHomogenit�at der Varianzen selbst testet, wird in Kapitel 6.4 beschrieben). Auf-grund zweier Stichproben mit den Stichprobenumf�angen nx und ny aus den beidenVerteilungen erh�alt man die Stichprobenmittel x und y und die Standardabweichungensx und sy. Es wird eine neue Zufallsgr�o�e X�Y gebildet, deren gemeinsame Streuungdurch die gepoolte Varianz
s2p =(nx � 1) � s2x + (ny � 1) � s2y
nx + ny � 2(6.13)
gesch�atzt wird. Die Standardabweichung s von X � Y wird gesch�atzt durch:
s = sp �s
1
nx+
1
ny(6.14)
Der Test basiert auf der Testgr�o�e
t0 =x� y
s(6.15)
mit dem Mittelwert �x��y, der bei G�ultigkeit der Nullhypothese H0 : �x = �y wegendes Additionstheorems der Normalverteilung gleich 0 ist. X�Y ist dann t-verteilt mitnx + ny � 2 Freiheitsgraden.
230 6 Test von statistischen Hypothesen
Es sind zwei wichtige F�alle zu unterscheiden:
1. Die beiden Stichproben sind voneinander unabh�angig.
Die Stichprobenumf�ange betragen nx und ny. Diese brauchen nicht gleich gro� zusein.
2. Die beiden Stichproben sind verbunden.
Dann sind die Stichprobenumf�ange automatisch gleich gro�, also nx = ny = n.Jeweils ein Wert xi und yi geh�oren zusammen, weil sie beispielsweise vom selbenVersuchsobjekt (Mensch, Tier, P anze, Parzelle usw.) stammen. Man spricht auchvon einem paarweisen Vergleich oder einem rechts-links-Vergleich.
Beispiele:
1. na Tiere werden mit einer Futtermischung A und nb andere Tiere mit der Futter-
mischung B gef�uttert. Die Gewichtszunahmen der na Tiere sind die Stichproben-
werte a1; a2; : : : ; ana , die Zunahmen der nb anderen Tiere sind die Stichprobenwerte
b1; b2; : : : ; bnb . Da der Versuch an zwei verschiedenen Gruppen von Tieren durch-
gef�uhrt wird, sind die Stichproben unabh�angig.
2. An einer Gruppe von n Personen wird die Wirkung zweier Medikamente getestet.
Die Versuchspersonen erhalten zun�achst das eine Medikament. Nach einiger Zeit
wird das andere Medikament verabreicht und jeweils die Wirksamkeit gemessen.
Diese Messungen sind verbundene Stichproben, da die Versuchspersonen individuell
verschieden auf Medikamente reagieren. In diesem Fall kann man den Ein u� der
Variabilit�at der Individuen, also deren unterschiedliche Reaktion auf Medikamente,
eliminieren. Dies ist der Vorteil des Paarvergleichs. Wird die Gruppe jedoch in zwei
H�alften geteilt, wobei jede H�alfte ausschlie�lich das eine Medikament erh�alt, dann
sind die Stichproben unabh�angig.
Es ist weiterhin zu unterscheiden, ob die Varianzen bekannt oder unbekannt sind undob bei unbekannten Varianzen diese in beiden Stichproben als gleich (homogen) ange-nommen werden oder nicht.
Die Nullhypothese lautet in allen F�allen: H0 : �x = �y. In Worten: Die Mittelwerteder beiden Verteilungen sind gleich. Als Alternative kommt eine der drei M�oglichkeiten�x < �y, �x > �y und �x 6= �y in Frage.
6.3.1 t-Test zum Mittelwertvergleich unabh�angiger Stichproben bei unbe-
kanntem �x = �y
Die Testgr�o�e lautet:
t0 =
snx � ny � (nx + ny � 2)
nx + ny� x� yq
(nx � 1) � s2x + (ny � 1) � s2y(6.16)
F�ur gleiche Stichprobenumf�ange nx = ny = n vereinfacht sich die Testgr�o�e zu:
t0 =pn � x� yq
s2x + s2y
(6.17)
6.3 Vergleich zweier Erwartungswerte 231
Der Test der Nullhypothese H0 : �x = �y erfolgt beim vorgew�ahlten Signi�kanzniveau� nach dem Testschema in Tab. 6.4.
Voraussetzung: Normalverteilung, Unabh�angigkeit, �x = �y unbekannt
Testgr�o�e: t0 =
snx � ny � (nx + ny � 2)
nx + ny� x� yq
(nx � 1) � s2x + (ny � 1) � s2yt0 =
pn � x� yq
s2x + s2y
f�ur nx = ny = n
H0: �x = �y
H1: Ablehnung von H0, wenn:
�x < �y t0 < �tnx+ny�2;1���x > �y t0 > tnx+ny�2;1�� (Tab. A.4)
�x 6= �y jt0j > tnx+ny�2;1��=2
Tabelle 6.4: t-Test zum Mittelwertvergleich unabh�angiger Stichproben bei unbekann-tem �x = �y
6.3.2 t-Test zum Mittelwertvergleich verbundener Stichproben bei unbe-
kanntem �x = �y
Aus den beiden Stichproben xi und yi werden die Di�erenzen di = xi � yi gebildet.Man testet nun die Hypothese, da� die Grundgesamtheit, aus der diese Di�erenzen-Stichprobe stammt, den Mittelwert �d = 0 hat, also:
H0 : �x � �y = 0 bzw. H0 : �d = 0 (6.18)
Die Testgr�o�e t0 berechnet sich mit d =1
n�
nXi=1
di =1
n�
nXi=1
(xi � yi) und
s2d =1
n� 1�
nXi=1
(di � d)2 =1
n� 1�0@ nX
i=1
d2i �1
n�
nXi=1
di
!21A zu:
t0 =d
sd=pn
(6.19)
Die Zahl der Freiheitsgrade ist jetzt nur noch n� 1.
Der Test verl�auft wie beim einfachen t-Test f�ur den Erwartungswert (vgl. Kap. 6.2.1).
232 6 Test von statistischen Hypothesen
Das Testschema in Kurzform zeigt Tab. 6.5.
Voraussetzung: Normalverteilung, Abh�angigkeit, �x = �y unbekannt
Testgr�o�e: t0 =d
sd=pn
H0: �x = �y bzw. �x � �y = �d = 0
H1: Ablehnung von H0, wenn:
�x < �y bzw. �d < 0 t0 < �tn�1;1���x > �y bzw. �d > 0 t0 > tn�1;1�� (Tab. A.4)
�x 6= �y bzw. �d 6= 0 jt0j > tn�1;1��=2
Tabelle 6.5: t-Test zum Mittelwertvergleich verbundener Stichproben bei unbekann-tem �x = �y
6.3.3 t-Test zum Mittelwertvergleich unabh�angiger Stichproben bei unbe-
kannten und verschiedenen �x 6= �y (Welch-Test)
Bisher wurde vorausgesetzt, da� die Standardabweichungen der beiden Grundgesamt-heiten gleich sind. Im Fall unterschiedlicher Streuungen wird die Standardabweichungder Zufallsgr�o�e x� y durch
s =qs2x=nx + s2y=ny (6.20)
gesch�atzt. Die Testgr�o�e ist dann t = (x� y)=s, also:
t0 =x� yq
s2x=nx + s2y=ny
(6.21)
Diese Testgr�o�e ist approximativ t-verteilt. Die Anzahl der Freiheitsgrade ist:
FG =
�s2x=nx + s2y=ny
�2s4x=(n
2x � (nx � 1)) + s4y=(n
2y � (ny � 1))
(6.22)
Falls nx = ny = n gilt:
FG = (n� 1) ��s2x + s2y
�2s4x + s4y
(6.23)
Der Test, der auch unter dem Namen Welch-Test bekannt ist, verl�auft wie beim Ver-gleich zweier Mittelwerte bei gleichen Streuungen, allerdings mit FG Freiheitsgraden.
6.3 Vergleich zweier Erwartungswerte 233
Voraussetzung: Normalvert., Unabh�angigkeit, �x 6= �y unbekannt
Testgr�o�e: t0 =x� yq
s2x=nx + s2y=ny
Freiheitsgrade: FG =
�s2x=nx + s2y=ny
�2s4x=(n
2x � (nx � 1)) + s4y=(n
2y � (ny � 1))
FG = (n� 1) ��s2x + s2y
�2s4x + s4y
f�ur nx = ny = n
H0: �x = �y
H1: Ablehnung von H0, wenn:
�x < �y t0 < �tFG;1���x > �y t0 > tFG;1�� (Tab. A.4)
�x 6= �y jt0j > tFG;1��=2
Tabelle 6.6: t-Test zum Mittelwertvergleich unabh�angiger Stichproben bei unbekann-ten und verschiedenen �x 6= �y
FG ist in der Regel keine ganze Zahl und sollte auf die n�achst niedrigere ganze Zahlabgerundet werden, um auf der sicheren Seite zu bleiben.
Das Testschema in Kurzform zeigt Tab. 6.6.
Der Test zweier Erwartungswerte bei gleichen Streuungen reagiert zwar besser aufMittelwertunterschiede als der Test bei ungleichen Streuungen, allerdings kann eineungerechtfertigte Annahme gleicher Varianzen zu schwerwiegenden Fehlentscheidungenf�uhren. Wenn man sich also nicht sicher ist, ob die Annahme gleicher Streuungenin den beiden Grundgesamtheiten gerechtfertigt ist, sollte der t-Test f�ur verschiedeneStreuungen bevorzugt werden.
6.3.4 z-Test zum Mittelwertvergleich unabh�angiger Stichproben
bei bekanntem �x und �y
Will man zwei Erwartungswerte aus zwei normalverteilten Grundgesamtheiten X undY , deren Standardabweichungen �x und �y bekannt sind, vergleichen, so kann ein Testauf die Di�erenz �x � �y durchgef�uhrt werden, z.B. H0 : �x = �y gegen H1 : �x 6= �y.Aufgrund des Additionssatzes der Normalverteilung ist die Di�erenz X � Y wieder
normalverteilt mit dem Erwartungswert �x � �y und der Streuung�2xnx
+�2y
ny. Deshalb
ist f�ur unabh�angige Stichproben die Testgr�o�e
z0 =x� yq
�2x=nx + �2y=ny
(6.24)
234 6 Test von statistischen Hypothesen
ebenfalls normalverteilt und man kann die Fraktilen u und die Grenzen � der Stan-dardnormalverteilung als Schwellenwerte heranziehen. Das Testschema zeigt Tab. 6.7.
Voraussetzung: Normalverteilung, Unabh�angigkeit, �x = �y bekannt
Testgr�o�e: z0 =x� yq
�2x=nx + �2y=ny
H0: �x = �y
H1: Ablehnung von H0, wenn:
�x < �y z0 < �u1���x > �y z0 > u1�� (Tab. A.2)
�x 6= �y jz0j > u1��=2 = �1��
Tabelle 6.7: z-Test f�ur den Vergleich zweier Erwartungswerte bei bekannten �x und�y f�ur unabh�angige Stichproben
6.3.5 z-Test zum Mittelwertvergleich verbundener Stichproben bei be-
kanntem �x und �y
Auch der Fall, da� die Stichproben verbunden sind, ist auf den Fall �ubertragbar, da�die Varianz �2 bekannt ist. Die entsprechende Varianz �2d der Di�erenz X�Y ist dann:
�2 + �2 = 2�2 (6.25)
Daraus resultiert folgende Testgr�o�e:
z0 =d
� �p2=n
(6.26)
mit d =1
n
nXi=1
(xi � yi).
Das Testschema zeigt Tab. 6.8.
6.3 Vergleich zweier Erwartungswerte 235
Voraussetzung: Normalverteilung, Abh�angigkeit, � = �x = �y bekannt
Testgr�o�e: z0 =d
� �p2=n
H0: �x = �y bzw. �x � �y = �d = 0
H1: Ablehnung von H0, wenn:
�x < �y bzw. �d < 0 z0 < �u1���x > �y bzw. �d > 0 z0 > u1�� (Tab. A.2)
�x 6= �y bzw. �d 6= 0 jz0j > u1��=2 = �1��
Tabelle 6.8: z-Test zum Mittelwertvergleich verbundener Stichproben bei bekanntem�x und �y
Beispiele:
1. In einem Versuch wurden zwei Gruppen von jeweils 8 Schweinen gleicher Rasse
mit Futter von verschiedenem Proteingehalt gem�astet. Es interessiert, ob ein ho-
her Proteingehalt auf einem Signi�kanzniveau von 0:01 h�ohere mittlere t�agliche
Gewichtszunahmen der Tiere verursacht.
Futter mittlere t�agliche Gewichtszunahme [g]
hoher Proteingehalt Hi 715 683 664 659 660 762 720 715
niedriger Proteingehalt Ni 684 655 657 531 638 601 611 651
Die Mittelwerte sind H = 697:3 g und N = 628:5 g. Die unbekannte Standard-
abweichung � wird in beiden Gruppen als gleich angenommen. Die empirischen
Standardabweichungen sind sH = 36:8 g und sN = 47:4 g. Es liegen unabh�angige
Stichproben vor. Die Testgr�o�e t0 berechnet sich dann nach Gleichung (6.16):
t0 =
rnH � nN � (nH + nN � 2)
nH + nN� H �Np
(nH � 1) � s2H + (nN � 1) � s2N=
=
r8 � 8 � (8 + 8� 2)
8 + 8� 697:3� 628:5p
(8� 1) � 36:82 + (8� 1) � 47:42=
=p56 � 68:8p
25207� 3:24
Da der Umfang der beiden Stichproben gleich ist, kann die Berechnung einfacher
nach Gleichung (6.17) erfolgen:
t0 =pn � H �Np
s2H + s2N=p8 � 697:3� 628:5p
36:82 + 47:42= 3:24
Da interessiert, ob das Futter mit dem hohen Proteingehalt h�ohere Gewichtszunah-
me liefert, wird die einseitige Alternativhypothese gew�ahlt:
H0 : �H = �N gegen H1 : �H > �N
236 6 Test von statistischen Hypothesen
Die t-Fraktile bei 99% mit nH + nN � 2 = 14 Freiheitsgraden wird in der Anhang-
stabelle A.4 nachgeschlagen. Es folgt:
t0 = 3:24 > 2:624 = t14;0:99
H0 wird demnach auf dem Signi�kanzniveau � = 1% abgelehnt. Die Alternativhy-
pothese H1, da� das Futtermittel mit dem h�oheren Proteingehalt h�ohere Gewichts-
zunahmen bewirkt, wird angenommen.
MINITAB stellt den Befehl twosample zum Mittelwertvergleich zur Verf�ugung. Oh-
ne Angabe eines K%-Kon�denzniveaus wird ein 95-Vertrauensintervall f�ur die Mit-
telwertsdi�erenz bestimmt. Einseitige Tests k�onnen mit den Optionen alternative
-1 bzw. alternative 1 ausgew�ahlt werden. Ohne Angabe dieses Subkommandos
wird zweiseitig getestet. Zum Test f�ur gleiche Varianzen dient das Subkomman-
do pooled. Ohne Angabe wird von verschiedenen Varianzen ausgegangen und der
Welch-Test durchgef�uhrt.
In der folgenden MINITAB-Session erfolgt nach der Dateneingabe der einseitige t-
Test f�ur ein Kon�denzniveau von 99%, also � = 1%, mit der Alternative H1 : �H >
�N und gepoolten Standardabweichungen.
MTB > name c1 'H' c2 'N'
MTB > set 'H'
DATA> 715 683 664 659 660 762 720 715
DATA> end
MTB > set 'N'
DATA> 684 655 657 531 638 601 611 651
DATA> end
MTB > twosample 99 'H' 'N';
SUBC> alternative 1;
SUBC> pooled.
TWOSAMPLE T FOR H VS N
N MEAN STDEV SE MEAN
H 8 697.3 36.8 13
N 8 628.5 47.4 17
99 PCT CI FOR MU H - MU N: (6, 132)
TTEST MU H = MU N (VS GT): T= 3.24 P=0.0030 DF= 14
POOLED STDEV = 42.5
MINITAB gibt nach den statistischen Ma�zahlen (Mittelwert, Standardabweichung
und Standardfehler des Mittels) das 99%-Vertrauensintervall f�ur die Mittelwerts-
di�erenz aus. Dieses reicht von 6 bis 132. Da die Null nicht in diesem Intervall ent-
halten ist, ist die Nullhypothese der Mittelwertsgleichheit auf 1% Signi�kanzniveau
abzulehnen. Der eigentliche t-Test MU H = MU N (�H = �N ) (VS GT) (engl. versus
greater than) (�H > �N ) liefert die Testgr�o�e T= 3.24, den p-Wert P=0.0030 und
die Freiheitsgrade DF= 14 (engl. degrees of freedom). Der p-Wert ist bekanntlich der
6.3 Vergleich zweier Erwartungswerte 237
Tabellenwert der Verteilung beim 1 � p-Fraktilenwert der Testgr�o�e und den ent-
sprechenden Freiheitsgraden. Im vorliegenden Fall w�urde also in einer Tabelle der
t-Verteilung (vgl. Tab. A.4 im Anhang) bei F (x) = 0:997 der Wert 3:24 abgelesen.Da p = 0:003 < 0:01 = � wird H0 zugunsten von H1 abgelehnt. Anders ausge-
dr�uckt: Man k�onnte H0 bis zu einem Signi�kanzniveau von 0:3% ablehnen k�onnen.
Da MINITAB immer den p-Wert ausgibt, ist es eigentlich egal, welches Kon�denz-
niveau man beim twosample-Kommando angibt. Dies dient lediglich zur Angabe
des Vertrauensintervalls der Mittelwertsdi�erenz. Die letzte Zeile im Output gibt
noch an, mit welcher gepoolten Standardabweichung der Test durchgef�uhrt wurde.
Man sieht, da� beide Standardabweichungen in der gleichen Gr�o�enordnung liegen,
so da� die Voraussetzung gleicher Varianzen vern�unftig erscheint.
2. Austernpilze und Braunkappen sind Holzpilze, die auf Stroh kultiviert werden
k�onnen. Es liegen zwei Stichproben �uber den Frischmasseertrag pro Strohballen
von beiden Pilzarten vor.
Frischmasse [kg/Strohballen]
Austernpilze 4:0 7:6 6:5 5:9 8:6 7:3 5:2 4:8 6:1 6:1Braunkappen 4:7 5:7 5:7 5:0 4:7 4:6 5:5 5:2 5:5 5:5 5:4 5:2
Stichprobe 1 2 3 4 5 6 7 8 9 10 11 12
Es soll getestet werden, ob die mittleren Ertr�age der beiden Pilze unterschiedlich
sind. Die Annahme der homogenen Varianzen ist hier gef�ahrlich, da zwei verschiede-
ne Arten verglichen werden. Es wird deshalb der zweiseitige t-Test f�ur verschiedene
Streuungen (Welch-Test) mit MINITAB durchgef�uhrt. Dazu wird das Kommando
twosample ohne Angabe einer Option verwendet.
MTB > name c1 'Auster' c2 'Braun'
MTB > set 'Auster'
DATA> 4 7.6 6.5 5.9 8.6 7.3 5.2 4.8 6.1 6.1
DATA> end
MTB > set 'Braun'
DATA> 4.7 5.7 5.7 5 4.7 4.6 5.5 5.2 5.5 5.5 5.4 5.2
DATA> end
MTB > twosample c1 c2
TWOSAMPLE T FOR Auster VS Braun
N MEAN STDEV SE MEAN
Auster 10 6.21 1.37 0.43
Braun 12 5.225 0.393 0.11
95 PCT CI FOR MU Auster - MU Braun: (-0.01, 1.98)
TTEST MU Auster = MU Braun (VS NE): T= 2.20 P=0.053 DF= 10
Der p-Wert ist 5:3%. Ein Ertragsunterschied kann demnach auf dem 5%-Signi�-kanzniveau nicht abgesichert werden. Da� die Ablehnung nur knapp verfehlt wurde,
zeigt auch das 95%-Vertrauensintervall f�ur die Mittelwertsdi�erenz, in dem die Null
gerade noch enthalten ist. Der Output zeigt auch, da� die empirische Standardab-
weichung der Austernpilze ca. dreimal so gro� ist wie die der Braunkappen.
238 6 Test von statistischen Hypothesen
F�uhrt man den t-Test mit den gepoolten Varianzen durch, so resultiert folgendes
Testergebnis:
MTB > twosample c1 c2;
SUBC> pooled.
TWOSAMPLE T FOR Auster VS Braun
N MEAN STDEV SE MEAN
Auster 10 6.21 1.37 0.43
Braun 12 5.225 0.393 0.11
95 PCT CI FOR MU Auster - MU Braun: (0.12, 1.85)
TTEST MU Auster = MU Braun (VS NE): T= 2.38 P=0.027 DF= 20
POOLED STDEV = 0.965
Der p-Wert betr�agt nun 2:7%, d.h. die Ertr�age w�aren signi�kant verschieden. Das
Beispiel zeigt also, da� beim Testen mit gepoolten Varianzen Vorsicht geboten ist,
da bei Verletzung der Voraussetzung der Homogenit�at der Varianzen Fehlentschei-
dungen auftreten k�onnen.
3. Gosset hat 1908 den gepaarten oder verbundenen t-Test eingef�uhrt, indem er die
Wirkung zweier Schlafmittel miteinander verglich. Es wurde die schlafverl�angernde
Wirkung (in Stunden) zweier Schlafmittel A und B an jeweils 10 gleichen Personen
in zwei aufeinanderfolgenden N�achten festgestellt2.
Person i Ai Bi di = Ai �Bi d2i = (Ai �Bi)2
1 1:9 0:7 1:2 1:442 0:8 �1:6 2:4 5:763 1:1 �0:2 1:3 1:694 0:1 �1:2 1:3 1:695 �0:1 �0:1 0:0 0:006 4:4 3:4 1:0 1:007 5:5 3:7 1:8 3:248 1:6 0:8 0:8 0:649 4:6 0:0 4:6 21:1610 3:4 2:0 1:4 1:96P
23:3 7:5 15:8 38:58
A = 2:33 B = 0:75 d = 1:58
Die Nullhypothese lautet: Die Erwartungswerte der Schlafverl�angerung von Mittel
A und Mittel B sind gleich, oder wie Gosset formulierte: Der Erwartungswert der
Di�erenz der Erwartungswerte ist Null:
H0 : �A = �B bzw. �d = 0 H1 : �A 6= �B bzw. �d 6= 0
Es ist d = 1:58. Die Anzahl der Freiheitsgrade ist FG = 10� 1 = 9.
2Cushny u. Peeples 1905, Journal of Physiology.
6.3 Vergleich zweier Erwartungswerte 239
Die Standardabweichung der Di�erenzen ist:
s2d =1
9��38:58� 1
10� 15:82
�= 1:513 ) sd � 1:23
Die Testgr�o�e berechnet sich dann zu:
t0 =d
sd=pn=
1:58 �p10
1:23= 4:06
Wenn � = 0:01 = 1% gefordert wird, dann erh�alt man t9;0:995 = 3:25 aus Tab. A.4im Anhang.
jt0j = 4:06 > 3:25 = t9;0:995
Die Nullhypothese �uber die Gleichheit der beiden Mittel wird auf dem 1%-Signi�-kanzniveau abgelehnt.
Es soll an dieser Stelle noch ausdr�ucklich darauf hingewiesen werden, da� ein Te-
stergebnis kein Beweis f�ur eine Theorie ist. Es kommt sehr stark auf die Formu-
lierung der Hypothesen, die unterstellten Voraussetzungen und auf die Versuchs-
durchf�uhrung an. Das zuerst verabreichte Medikament kann im vorliegenden Fall
noch in der folgenden Nacht wirksam sein und so eine schlafverl�angernde Wirkung
des zweiten Medikaments vort�auschen. Dieser E�ekt ist der sog. carry-over. Es
wird also eine Wirkung in eine folgende Versuchsperiode mit hin�ubergetragen. Es
w�are eventuell sinnvoll, eine Pause zwischen der ersten und zweiten Verabreichung
einzulegen, um einen sog. wash-out zu erreichen. Dies k�onnte allerdings wiederum
zur Folge haben, da� die Versuchspersonen nach dieser Zeitspanne physisch und
psychisch anders reagieren als unmittelbar nach der ersten Nacht.
6.3.6 Unabh�angige oder verbundene Stichproben?
Wenn man die Wahl hat, ein Experiment mit unabh�angigen oder verbundenen Stichpro-ben durchzuf�uhren, emp�ehlt sich eine Versuchsplanung mit verbundenen Stichproben.In diesem Fall bekommt man meist genauere Ergebnisse, weil durch die Di�erenzbil-dung aus den zusammengeh�origen Stichprobenwerten eine kleinere Varianz resultiert(s2d < s2x+s2y). Die Testgr�o�e wird dadurch gr�o�er und �uberschreitet deshalb eher einenSchwellenwert, so da� Unterschiede besser aufgedeckt werden k�onnen. Es gehen aller-dings Freiheitsgrade verloren: Bei zwei unabh�angigen gleich gro�en Stichproben sindes 2n� 2, bei zwei verbundenen Stichproben nur n � 1 Freiheitsgrade. Dadurch wirdder zum Vergleich herangezogene Schwellenwert gr�o�er.
240 6 Test von statistischen Hypothesen
Beispiel:
Es soll gepr�uft werden, ob sich die Benzinqualit�at der Marken Eral und Asso unter-
scheiden. F�ur beide Marken wurde der Verbrauch in l/100 km am gleichen von jeweils
f�unf Autos gemessen.
Typ Eral Asso
Limousine 11:9 12:3Kleinwagen 7:7 7:7Kombi 8:2 8:5Sportwagen 13:4 14:0Mittelklassewagen 8:0 8:3
Die Stichproben sind in diesem Fall nat�urlich verbunden, da der Verbrauch eines Au-
totyps f�ur beide Benzinmarken in der gleichen Gr�o�enordnung liegt.
Die Daten werden diesmal mit dem read-Befehl spaltenweise in MINITAB eingelesen
und anschlie�end zun�achst der t-Test zum Mittelwertvergleich unabh�angiger Stichpro-
ben mit gepoolten Standardabweichungen durchgef�uhrt.
MTB > read c1 c2
DATA> 11.9 12.3
DATA> 7.7 7.7
DATA> 8.2 8.5
DATA> 13.4 14.0
DATA> 8.0 8.3
DATA> end
5 ROWS READ
MTB > name c1 'Eral' c2 'Asso'
MTB > twosample 'Eral' 'Asso';
SUBC> pooled.
TWOSAMPLE T FOR Eral VS Asso
N MEAN STDEV SE MEAN
Eral 5 9.84 2.63 1.2
Asso 5 10.16 2.81 1.3
95 PCT CI FOR MU Eral - MU Asso: (-4.3, 3.6)
TTEST MU Eral = MU Asso (VS NE): T= -0.19 P=0.86 DF= 8
POOLED STDEV = 2.72
Die Hypothese, da� ein Qualit�atsunterschied besteht, k�onnte nur auf Signi�kanzni-
veaus, die gr�o�er als 85:7% sind abgesichert werden. Dies w�urde kein vern�unftiger
Statistiker tun.
6.3 Vergleich zweier Erwartungswerte 241
Der richtige Test f�ur verbundene Stichproben erfolgt mit dem t-Test f�ur den Mittelwert
bei unbekanntem � (Abschnitt 6.2.1), indem man die Di�erenzen der Verbrauchswerte
gegen 0 testet, also: H0 : �d = 0 gegen H1 : �d 6= 0. Dazu werden zun�achst die
Di�erenzen mit dem let-Befehl gebildet und anschlie�end der t-Test durchgef�uhrt.
MTB > name c3 'Diff.'
MTB > let c3=c1-c2
MTB > ttest 0 'Diff.'
TEST OF MU = 0.0000 VS MU N.E. 0.0000
N MEAN STDEV SE MEAN T P VALUE
Diff. 5 -0.3200 0.2168 0.0970 -3.30 0.030
Nun betr�agt der p-Wert gerade noch ca. 3%. Ein Qualit�atsunterschied kann also auf
dem 5%-Niveau signi�kant gesichert werden.
Der krasse Unterschied in den Testergebnissen des Beispiels ist durch die Variabilit�atim Verbrauch der einzelnen Autotypen bedingt. Beim Test f�ur unabh�angige Stichpro-ben wird diese Typenvariabilit�at der jeweiligen Stichprobe angelastet, w�ahrend sie imanderen Fall dem jeweils zusammengeh�origen Wertepaar zugerechnet und deshalb teil-weise eliminiert wird. Es ist auch o�ensichtlich, da� der Verbrauch mit der Marke Assoin allen F�allen h�oher oder gleich war.
6.3.7 Einseitige oder zweiseitige Alternativhypothesen?
Bei einem Mittelwertvergleich will man z.B. einen Unterschied zwischen zwei Metho-den oder Sorten feststellen. �Uber die Richtung eines m�oglichen Unterschieds in derWirkung oder im Ertrag liegen in der Regel jedoch vor der Stichprobenerhebung keineInformationen vor. In diesem h�au�gsten Fall lautet die Alternativhypothese: Die beidenStichprobenmittel entstammen unterschiedlichen Grundgesamtheiten, sie sind also le-diglich verschieden (H1 : �1 6= �2). Ist jedoch aus sachlichen Gr�unden die Richtung deszu erwartenden Unterschieds bekannt oder sind Abweichungen in einer Richtung unin-teressant, dann ist die einseitige Alternativhypothese (H1 : �1 < �2 bzw. H1 : �1 > �2)vorzuziehen. Eine Ablehnung der Nullhypothese und damit eine Annahme der Alterna-tivhypothese ist bei der einseitigen Fragestellung eher m�oglich als bei der zweiseitigen,denn beim einseitigen Test wird die Testgr�o�e mit der (1��)-Fraktilen und beim zwei-seitigen Test mit der (1 � �=2)-Fraktilen verglichen. Die (1 � �=2)-Fraktile ist aberimmer gr�o�er als die (1��)-Fraktile. Der einseitige Test deckt Di�erenzen in den Mit-telwerten fr�uher auf als der zweiseitige. Die Macht des Tests oder die Testst�arke deseinseitigen Tests ist also gr�o�er als beim zweiseitigen Test.
Beispiel:
Auf dem M�unchner Oktoberfest pr�uft ein Stadtbeamter die F�ullmenge der Ma�kr�uge in
einem Bierzelt. Der Wiesenwirt erh�alt eine Verwarnung, wenn der Inhalt auf maximal
5% Signi�kanzniveau kleiner als 0:90 l ist. Der Kontrolleur kauft 10 Ma� Bier, mi�t
den Inhalt und wertet die Daten in MINITAB mit dem t-Test f�ur den Mittelwert bei
unbekanntem � (Abschnitt 6.2.1) aus.
242 6 Test von statistischen Hypothesen
MTB > set c1
DATA> 0.88 0.85 0.91 0.90 0.82 0.86 0.89 0.90 0.89 0.90
DATA> end
MTB > ttest 0.9 c1
TEST OF MU = 0.90000 VS MU N.E. 0.90000
N MEAN STDEV SE MEAN T P VALUE
C1 10 0.88000 0.02828 0.00894 -2.24 0.052
Aufgrund des zweiseitigen t-Tests kann die Alternativhypothese, da� die mittlere Bier-
menge verschieden von 0:9 l ist, auf dem 5%-Niveau nicht angenommen werden.
Interessant ist allerdings ausschlie�lich eine Abweichung nach unten. Es ist also sinn-
voller, folgende Hypothesen aufzustellen:
H0 : � = 0:9 l gegen H1 : � < 0:9 l
In MINITAB erfolgt dieser Test mit dem Subkommando alternative -1.
MTB > ttest 0.9 c1;
SUBC> alternative -1.
TEST OF MU = 0.90000 VS MU L.T. 0.90000
N MEAN STDEV SE MEAN T P VALUE
C1 10 0.88000 0.02828 0.00894 -2.24 0.026
Der p-Wert betr�agt jetzt 2:6%, also die H�alfte von vorher. Die Nullhypothese ist in
diesem Fall auf dem 5%-Niveau abzulehnen. Der Wirt erh�alt eine Verwarnung.
6.3.8 Bekanntes oder unbekanntes �?
Ist die Gr�o�enordnung der Streuung einer Grundgesamtheit (z.B. aus fr�uheren Mes-sungen) bekannt, so wird man diese beim Mittelwertvergleich als bekannt vorausset-zen. Eine Ablehnung der Nullhypothese ist in diesem Fall eher m�oglich, weil dann alsTestschwelle eine Fraktile der Normalverteilung dient. Diese Fraktile ist immer klei-ner als die entsprechende Fraktile der t-Verteilung. Besonders bei kleinen Stichprobe-numf�angen oder wenn extrem hohe bzw. niedrige Werte auftreten ist es m�oglich, da�die gesch�atzte Varianz stark von der tats�achlichen Varianz abweicht. Aus diesem Grundkann es zu krassen Fehlentscheidungen kommen.
Generell ist der z-Test sicherlich sehr selten anzuwenden, da man die Streuung �2 in derRegel nicht oder nicht gen�ugend genau kennt, wenn schon der Mittelwert � unbekanntist.
6.3 Vergleich zweier Erwartungswerte 243
Beispiel:
Es soll der Natriumgehalt (in mg/l) von zwei Mineralw�assern aufgrund folgender Stich-
probe verglichen werden:
Mineralwasser 1 8:17 5:53 7:12 8:01 x1 = 7:21 s1 = 1:21
Mineralwasser 2 9:32 8:24 8:99 9:10 x2 = 8:91 s2 = 0:47
Die Nullhypothese, die mittleren Natriumgehalte sind gleich, wird gegen die Alternativ-
hypothese, die mittleren Natriumgehalte sind verschieden, bei einem Signi�kanzniveau
von � = 1% getestet:
H0 : �1 = �2 H1 : �1 6= �2 � = 0:01
Der t-Test f�ur den Mittelwertvergleich bei unterschiedlichen Streuungen hat als Test-
gr�o�e
t0 =x1 � x2p
s21=n1 + s22=n2=
7:21� 8:91p1:212=4 + 0:472=4
= �2:62
mit
FG =(s21=n+ s22=n)
2
s41=(n2 � (n� 1)) + s42=(n
2 � (n� 1))=
=(1:212=4 + 0:472=4)2
1:214=(16 � 3) + 0:474=(16 � 3) = 3:89:
Die Freiheitsgrade werden auf 3 abgerundet, um auf der sicheren Seite zu bleiben, denn
die Fraktile f�ur 3 Freiheitsgrade ist gr�o�er als die f�ur 4 Freiheitsgrade.
Es ist (vgl. Tab. A.4 im Anhang):
jt0j = 2:62 6> 5:84 = (3)0:99 = t
(3)0:995
Also kann H0 nicht abgelehnt werden.
Allerdings ist der Wert 5:53 der ersten Stichprobe relativ klein im Vergleich zu den
anderen. Au�erdem wei� man aufgrund zahlreicher fr�uherer Untersuchungen, da� der
Natriumgehalt von Mineralw�assern eine Standardabweichung in der Gr�o�enordnung
von � � 0:5 hat. Es kann in diesem Fall der z-Test zum Mittelwertvergleich bei be-
kannten Streuungen herangezogen werden. Die Testgr�o�e lautet:
z0 =x1 � x2p
�2=n1 + �2=n2=
7:21� 8:91p0:52=4 + 0:52=4
= �4:81
Damit folgt (vgl. Tab. A.2 im Anhang):
jz0j = 4:81 > 2:58 = �0:99
Ein Unterschied im mittleren Natriumgehalt kann also auf dem 1%-Niveau statistisch
abgesichert werden.
244 6 Test von statistischen Hypothesen
6.4 Test der Varianz
Im folgenden Abschnitt werden Stichproben aus normalverteilten Grundgesamtheitenbetrachtet. Die Erwartungswerte und Varianzen bzw. Standardabweichungen seien un-bekannt.
6.4.1 �2-Test f�ur die Varianz
Gegeben sei eine (�; �2)-normalverteilte Grundgesamtheit. Anhand einer Stichprobevom Umfang n und der daraus ermittelten empirischen Varianz s2 soll getestet werden,ob die Annahme, da� die Varianz der Grundgesamtheit einen bestimmten Wert �0 hat,aufrechterhalten werden kann oder abzulehnen ist. Die Nullhypothese lautet also:
H0 : �2 = �20 bzw. H0 : � = �0 (6.27)
Die Nullhypothese ist zugunsten der zweiseitigen Alternative H1 : �2 6= �20 auf einem
Signi�kanzniveau von � abzulehnen, wenn der Wert �20 au�erhalb des Vertrauensbe-reichs
V:I:
((n� 1)s2
�2n�1;1��=2
� �2 � (n� 1)s2
�2n�1;�=2
)1��
(6.28)
liegt. Die Fraktilen der �2-Verteilung sind in Tab. A.3 im Anhang tabelliert.
Bei den einseitigen Alternativhypothesen H1 : �2 < �20 und H1 : �2 > �20 sind dieVertrauensintervalle:
V:I:
((n� 1)s2
�2n�1;�� �2 < +1
)1��
V:I:
(�1 < �2 � (n� 1)s2
�2n�1;1��
)1��
(6.29)
Die Testgr�o�e �20 beim entsprechenden Test lautet also:
�20 =(n� 1)s2
�20(6.30)
Der Test der Nullhypothese H0 erfolgt beim vorgew�ahlten Signi�kanzniveau � je nachAlternativhypothese H1 nach dem Schema in Tab. 6.9.
6.4 Test der Varianz 245
Voraussetzung: Normalverteilung
Testgr�o�e: �20 =(n� 1)s2
�20
H0: �2 = �20
H1: Ablehnung von H0, wenn
�2 < �20 �20 < �2n�1;�
�2 > �20 �20 > �2n�1;1�� (Tab. A.3)
�2 6= �20 �20
8>>><>>>:
> �2n�1;1��=2
oder
< �2n�1;�=2
Tabelle 6.9: Test der Hypothese �2 = �20
Beispiel:
Beim Vergleich des Natriumgehalts von zwei Mineralw�assern auf Seite 243 wurde an-
genommen, da� der Gehalt eine Standardabweichung von � = 0:5 �g=l hat. Es soll nungetestet werden, ob diese Annahme aufrecht erhalten werden kann. Es erfolgt der Test:
H0 : � = 0:5 H1 : � 6= 0:5 � = 1%
Die Testgr�o�en f�ur die beiden Mineralw�asser lauten:
�21 =(n1 � 1)s21
�20=
3 � 1:2120:52
= 17:57 und
�22 =(n2 � 1)s22
�20=
3 � 0:4720:52
= 2:65
Die (1� 0:01)=2 = 0:995- und die 0:01=2 = 0:005-Fraktilen m�ussen in der Anhangsta-
belle A.3 bei 3 Freiheitsgraden nachgeschlagen werden:
�23;0:995 = 12:84 und �23;0:005 = 0:07
Es ist �21 = 17:57 > 12:84 = �23;0:995. F�ur Mineralwasser 1 mu� die Hypothese, da�
die Standardabweichung 0:5 �g=l betr�agt, auf dem Signi�kanzniveau von � = 0:01verworfen werden, f�ur Mineralwasser 2 dagegen nicht.
6.4.2 F -Test zum Vergleich zweier Varianzen
Voraussetzung f�ur den Vergleich zweier Erwartungswerte durch den t-Test mit den ge-poolten Varianzen ist die Gleichheit oder Homogenit�at der Varianzen. Aus diesemGrund ist es h�au�g notwendig, zu pr�ufen, ob diese Voraussetzung verletzt wird.
Seien x1; x2; : : : ; xm und y1; y2; : : : ; yn zwei voneinander unabh�angige Stichproben aus
einer (�x; �2x)- bzw. (�y; �
2y)-normalverteilten Grundgesamtheit, so ist die Gr�o�e
S2x=�
2x
S2y=�
2y
246 6 Test von statistischen Hypothesen
eine F -verteilte Zufallsvariable mit m � 1 Z�ahler- und n � 1 Nennerfreiheitsgraden.Fm�1;n�1;K% bzw. Fm�1;n�1;L% seien die F -Fraktilen mit den Prozentwerten K undL sowie den Z�ahlerfreiheitsgraden m � 1 und den Nennerfreiheitsgraden n � 1. Danngilt folgende Wahrscheinlichkeitsaussage:
P
�Fm�1;n�1;L% �
S2x=�
2x
S2y=�
2y
� Fm�1;n�1;K%
�= (K � L)% (6.31)
Das Verh�altnis �x=�y ist unbekannt, w�ahrend sx und sy aufgrund der Stichprobe be-rechnet werden k�onnen. Die Wahrscheinlichkeitsaussage (6.31) wird daher so umfor-muliert, da� ein Vertrauensbereich f�ur �x=�y resultiert:
P
�Fn�1;m�1;L% �
S2x
S2y
� �2x�2y
� Fn�1;m�1;K% �S2x
S2y
�= (K � L)% (6.32)
Mit symmetrischen Grenzen folgt:
P
�Fn�1;m�1;�=2 �
S2x
S2y
� �2x�2y
� Fn�1;m�1;1��=2 �S2x
S2y
�= K% (6.33)
Daraus ergibt sich der entsprechende Vertrauensbereich:
V:I:
�Fn�1;m�1;�=2 �
s2xs2y� �2x
�2y� Fn�1;m�1;1��=2 �
s2xs2y
�1��
(6.34)
Die F -Fraktilen sind den Tabellen A.5 bis A.7 im Anhang zu entnehmen.
Die Pr�ufgr�o�e f�ur das entsprechende Testverfahren lautet also:
F0 =s2xs2y
(6.35)
Der Test der Nullhypothese, also der Varianzhomogenit�at, erfolgt beim vorgew�ahltenSigni�kanzniveau � je nach Alternativhypothese H1 anhand von Tab. 6.10.
Zur Bildung von Fm;n;� bildet man den Kehrwert der 1��-Fraktilen bei vertauschtenZ�ahler- und Nennerfreiheitsgraden:
Fm;n;� =1
Fn;m;1��
(6.36)
Der Vergleich von F0 mit der Fm;n;�=2-Fraktilen braucht nicht durchgef�uhrt zu werden,wenn man zur Berechnung von F0 immer die gr�o�ere durch die kleinere Varianz teilt.
6.4 Test der Varianz 247
Voraussetzung: Normalverteilung
Testgr�o�e: F0 =s2xs2y
H0: �2x = �2y
H1: Ablehnung von H0, wenn
�2x < �2y F0 < Fm�1;n�1;�
�2x > �2y F0 > Fm�1;n�1;1�� (Tab. A.5 { A.7)
�2x 6= �2y F0
8>>><>>>:
> Fm�1;n�1;1��=2
oder
< Fm�1;n�1;�=2
Tabelle 6.10: F -Test zum Vergleich zweier Varianzen
Beispiel:
Im Beispiel mit den Pilzen auf Seite 237 wurde angenommen, da� die Streuungen der
Frischmasseertr�age von Austernpilzen und Braunkappen verschieden sind. Dies soll nun
getestet werden.
H0 : �A = �B H1 : �a 6= �B � = 0:05
F0 =s2As2B
=1:372
0:3932= 12:15
F0 = 12:15 > 3:78 = F9;10;0:975 > F9;11;0:975 (Tab. A.6 im Anhang)
Also ist die Hypothese der Varianzhomogenit�at auf � = 5% abzulehnen.
6.4.3 Pfanzagl- oder Levene-Test zum Vergleich zweier Varianzen
Der F -Test zum Vergleich zweier Varianzen ist nicht sehr robust gegen Abweichun-gen von der Normalverteilung. Falls der Verdacht auf solche Abweichungen besteht,emp�ehlt sich der Pfanzagl-3 oder Levene-Test, der ohne die Annahme der Normal-verteilung auskommt. Man berechnet:
dxi = jxi � xj und dyi = jyi � yj (6.37)
Die Erwartungswerte der dxi und dyi sind proportional zu �x bzw. �y. Die Nullhypo-these H0 : �x = �y kann damit auf eine analoge Nullhypothese �uber die Erwartungs-werte der dxi und dyi zur�uckgef�uhrt werden. Um diese Nullhypothese zu pr�ufen, kannman den t-Mittelwertsvergleich oder einen verteilungsfreien Test wie den Wilcoxon-Rangsummentest (vgl. Band 2) heranziehen.
3Pfanzagl J. 1966: Allgemeine Methodenlehre der Statistik II, G�oschen.
248 6 Test von statistischen Hypothesen
Beispiel:
Zum Vergleich der Varianzen von Austernpilzen und Braunkappen im Beispiel auf
Seite 237 werden zun�achst die Mittelwerte (Kommando mean) in den Konstanten k1
und k2 gespeichert und anschlie�end die absoluten (Funktion abs) Abweichungen der
Me�werte vom Mittelwert berechnet.
MTB > mean c1 k1
MEAN = 6.2100
MTB > mean c2 k2
MEAN = 5.2250
MTB > let c3=abs(c1-k1)
MTB > let c4=abs(c2-k2)
Das twosample-Kommando f�uhrt dann den t-Test durch.
MTB > twosample c3 c4
TWOSAMPLE T FOR C3 VS C4
N MEAN STDEV SE MEAN
C3 10 1.032 0.835 0.26
C4 12 0.325 0.199 0.057
95 PCT CI FOR MU C3 - MU C4: (0.10, 1.319)
TTEST MU C3 = MU C4 (VS NE): T= 2.62 P=0.028 DF= 9
Die Nullhypothese gleicher Varianzen kann bis zu einem Signi�kanzniveau von 2:8%abgelehnt werden.
6.5 Vergleich zweier Bernoulli-Wahrscheinlichkeiten 249
6.5 Vergleich zweier Bernoulli-Wahrscheinlichkeiten
H�au�g wird die Frage gestellt, ob sich die Anteile bestimmter Objekte oder Merkmalein zwei verschiedenen Grundgesamtheiten unterscheiden. Man will z.B. wissen, ob dieBehandlung einer Getreidesorte mit zwei Fungiziden verschiedene Befallsh�au�gkeitenzur Folge hat oder ob die Toxizit�at zweier Umweltschadsto�e unterschiedlich ist. Esexistieren in solchen F�allen also empirische H�au�gkeitswerte h1 und h2, die aufgrundeiner Stichprobe ermittelt wurden. Diese sind Sch�atzwerte f�ur die unbekannten H�au�g-keiten p1 und p2, beispielsweise die Befallsh�au�gkeit mit einem Erreger oder der Anteilgesch�adigter Organismen nach Einwirkung eines Schadsto�s. Es soll dann die Nullhy-pothese, die H�au�gkeiten sind gleich, gegen eine entsprechende Alternativhypothesegetestet werden.
Bei nicht zu geringem Stichprobenumfang ist die relative H�au�gkeit h etwa (p; pq=n)-normalverteilt mit q = 1 � p. Die Di�erenz h1 � h2 zweier Anteile ist dann ebenfallsapproximativ normalverteilt mit dem Erwartungswert p1� p2 und der Standardabwei-chung
pp1q1=n1 + p2q2=n2. Unter Annahme der Nullhypothese H0 : p1 = p2 gilt auch
p1q1 = p2q2 = pq. Man ben�otigt also einen gepoolten Sch�atzwert f�ur p und q aus derAnzahl der beobachteten Daten a1, a2, a1 und a2 (vgl. folgendes Schema).
Ereignis Stichprobe 1 Stichprobe 2 gesamt
A a1 a2 a1 + a2A a1 a2 a1 + a2
gesamt n1 = a1 + a1 n2 = a2 + a2 n = n1 + n2
Es bietet sich daher an, p durch
h =a1 + a2
n(6.38)
zu sch�atzen. Die empirischen H�au�gkeiten sind
h1 =a1
n1und h2 =
a2
n2(6.39)
Die Standardabweichung der Di�erenz �h = h1 � h2 ist:
s�h =
sh � (1� h) �
�1
n1+
1
n2
�(6.40)
Damit erh�alt man die Testgr�o�e:
z0 =h1 � h2
s�h=
h1 � h2sh � (1� h) �
�1
n1+
1
n2
� (6.41)
250 6 Test von statistischen Hypothesen
Voraussetzung: Bernoulli-Experiment, n1, n2 gen�ugend gro�
Testgr�o�e: z0 =h1 � h2p
h � (1� h) � (1=n1 + 1=n2)
mit h1 =a1
n1, h2 =
a2
n2, h =
a1 + a2
n
H0: p1 = p2
H1: Ablehnung von H0, wenn
p1 < p2 z0 < �u1��p1 > p2 z0 > u1�� (Tab. A.2)
p1 6= p2 jz0j > �1�� = u1��=2
Tabelle 6.11: z-Test f�ur den Vergleich zweier Bernoulli-Wahrscheinlichkeiten
Unter Annahme der Nullhypothese ist die Testgr�o�e ungef�ahr standardnormalverteilt.Der Test verl�auft dann nach dem Schema in Tab. 6.11.
Vertrauensintervall f�ur p1 � p2
Da die Gr�o�e(h1 � h2)� (p1 � p2)
s�happroximativ normalverteilt ist, erh�alt man f�ur
das 1� �-Vertrauensintervall:
V:I:fh1 � h2 � �1�� � s�h � p1 � p2 � h1 � h2 + �1�� � s�hg1�� (6.42)
Man beachte, da� in s�h die beiden beobachteten H�au�gkeiten h1 und h2 eingehen,w�ahrend beim Test von H0 : p1 = p2 aufgrund der Annahme von H0 ein gepoolterSch�atzer verwendet wird. Das Vertrauensintervall soll alle Vertrauenswerte p1 � p2einschlie�en, nicht nur den Wert p1 � p2 = 0.
6.5 Vergleich zweier Bernoulli-Wahrscheinlichkeiten 251
Beispiel:
Bei der Toxizit�atspr�ufung zweier chemischer Substanzen wurden Ratten im Labor kon-
taminiert. Die Anzahl der �uberlebenden und verendeten Ratten zeigt folgende Tabelle.
Wirksto�1 2 gesamt
�Uberlebende 48 34 82Tote 81 53 134
gesamt 129 87 216
Die beiden unbekannten �Uberlebenswahrscheinlichkeiten p1 und p2 werden durch die
empirischen H�au�gkeiten h1 =48
129= 0:37 und h2 =
34
87= 0:39 gesch�atzt, der gepoolte
Sch�atzwert f�ur p ist h =48 + 34
216= 0:38. Als Testgr�o�e berechnet man:
z0 =0:37� 0:39s
0:38 � 0:62 ��
1
129+
1
87
� = �0:30
Es gilt: jz0j = 0:30 6> 1:645 = �0:90 = u0:95. Die unterschiedliche Toxizit�at der beiden
Substanzen kann also auf dem 10%-Signi�kanzniveau nicht statistisch gesichert werden.
F�ur das 90%-Vertrauensintervall ben�otigt man s�h:
s�h =
s0:38 � 0:62 �
�1
129+
1
87
�= 0:067
Damit lautet das Vertrauensintervall mit der zweiseitigen 90%-Fraktilen �0:9 = 1:645der Standardnormalverteilung aus Anhangstabelle A.2:
V:I:f�0:02� 1:645 � 0:067 � p1 � p2 � �0:02 + 1:645 � 0:067g0:9 =V:I:f�0:13 � p1 � p2 � 0:09g0:9Ein Toxizit�atsunterschied w�are nur dann abzusichern, wenn der Wert 0 au�erhalb des
Vertrauensintervalls liegen w�urde. Dies ist jedoch nicht der Fall.
252 6 Test von statistischen Hypothesen
6.6 Test der Verteilungsfunktion und Analyse von Kontingenz-
tafeln
Die bisher vorgestellten Tests bezogen sich fast ausnahmslos auf Hypothesen �uber Para-meter von bekannt vorausgesetzten Verteilungen. Die folgenden Chi-Quadrat-Teststesten die Hypothese, da� die Grundgesamtheit eine bestimmte Verteilung besitzt bzw.die Unabh�angigkeit von Merkmalen aufgrund einer gegebenen Kontingenztafel (vgl.Kap. 1.3).
6.6.1 �2-Test f�ur Verteilungsfunktionen
Mit Hilfe einer Stichprobe soll die Hypothese getestet werden, ob eine Grundgesamtheitoder die sie charakterisierende Zufallsvariable X eine bestimmte VerteilungsfunktionF hat. Aus der Stichprobe kann man die empirische Summenh�au�gkeitsfunktion eFberechnen. F und eF werden dann in ihrem ganzen Verlauf miteinander verglichenund die Abweichung bewertet. Wenn man die Wahrscheinlichkeitsverteilung der Ab-weichung unter der Voraussetzung, da� die Hypothese richtig ist, kennt, so ist man inder Lage, einen Test dieser Nullhypothese anzugeben.
Bei der Durchf�uhrung des Tests unterteilt man die x-Achse in r sich nicht �uberlappendeKlassen oder Teilintervalle T1; T2; : : : ; Tr, so da� jedes Teilintervall wenigstens 4 Werteder gegebenen Stichprobe x1; x2; : : : ; xn enth�alt. Sei Bi (i = 1; 2; : : : ; r) die Anzahl derbeobachteten Stichprobenwerte in Ti. Dann berechnet man sich aufgrund der hypo-thetischen Verteilungsfunktion F die Wahrscheinlichkeit pi, da� die Zufallsvariable Xeinen Wert aus dem Intervall Ti annimmt. Wenn die Stichprobe den Umfang n hat,dann sind im Teilintervall Ti theoretisch Ei = n � pi Stichprobenwerte zu erwarten.
Man berechnet nun folgende Testgr�o�e �20:
�20 =
rXi=1
(Bi �Ei)2
Ei
(6.43)
Die Gr�o�e �20, aufgefa�t als Zufallsvariable, ist unter der Voraussetzung, da� die Hy-pothese richtig ist, f�ur n ! 1 �2-verteilt mit r � 1 Freiheitsgraden. Die Nutzanwen-dung dieser Tatsache ist, da� man die Gr�o�e �20 praktisch als �2-verteilt mit r � 1Freiheitsgraden ansehen kann, wenn nur alle Ei � 4 sind (Faustregel). Man legt eineIrrtumswahrscheinlichkeit � fest und sucht den entsprechenden Tabellenwert �2r�1;1��in Anhangstabelle A.3. Ist dann �20 > �2r�1;1��, so wird die Nullhypothese verworfen.
Bisher wurde angenommen, da� die Verteilungsfunktion F vollst�andig bekannt ist.Falls jedoch in der zu testenden Verteilungsfunktion k unbekannte Parameter (z.B.Mittelwert, Varianz usw.) enthalten sind, dann sind diese unbekannten Parameter erstzu sch�atzen. Die Pr�ufgr�o�e �20 nach (6.43) ist in diesem Fall angen�ahert �2-verteilt mitr � k � 1 Freiheitsgraden.
Das Testschema zeigt Tab. 6.12.
6.6 Test der Verteilungsfunktion und Kontingenztafelanalyse 253
Testgr�o�e: �20 =
rXi=1
(Bi �Ei)2
Ei
H0: X � F (x)
H1: Ablehnung von H0, wenn
X 6� F (x) �20 > �2r�s�1;1�� (Tab. A.3)
Tabelle 6.12: �2-Test f�ur Verteilungsfunktionen
Beispiel:
Es soll gepr�uft werden, ob die Milchleistungen der Stichprobe von Tab. 1.8 aus einer
normalverteilten Grundgesamtheit stammen. In Tab. 1.9 sind die absoluten H�au�gkei-
ten der klassi�zierten Stichprobe angef�uhrt. Der Stichprobenumfang ist n = 100, derMittelwert ist x = 5189, die Standardabweichung ist s = 655. Die letzten beiden Werte
werden zun�achst als Parameter der zu testenden Normalverteilung herangezogen. Die
Hypothesen lauten dann:
H0 : X � (5189; 6552)-n.v. H1 : X 6� (5189; 6552)-n.v.
Da in der vorletzten Klasse nur 3 Stichprobenwerte auftreten, ist es zweckm�a�ig, die
letzten beiden Klassen zu einer einzigen Klasse zu vereinigen. Die erwarteten H�au�g-
keiten Ei berechnet man �uber die Wahrscheinlichkeit pi, da� die Milchleistung im
Teilintervall i vorkommt. Zu diesem Zweck ben�otigt man die Verteilungsfunktion F .
Wird wie im vorliegenden Fall die Hypothese der Normalverteilung getestet, so mu�
zun�achst auf die Standardnormalverteilung �(x) transformiert werden. Das gesuchte piergibt sich dann aus der Di�erenz der Funktionswerte der Standardnormalverteilung an
den Klassengrenzen. Die Berechnung der erwarteten H�au�gkeit E1 f�ur die erste Klasse
lautet ausf�uhrlich:
E1 = p1 � n = p1 � 100 = (F (4000)� F (�1)) � 100 ==
��
�4000� 5189
655
�� �(�1)
�� 100 = (�(�1:82)� �(�1)) � 100 =
= (0:034� 0:000) � 100 = 3:4
Die Berechnung der erwarteten H�au�gkeiten f�ur jede Klasse erfolgt zweckm�a�igerweise
in Tabellenform.
Intervallx� 5189
655�
�x� 5189
655
�pi Ei Bi
(Bi �Ei)2
Ei
: : : 4000 : : :�1:82 0:000 : : :0:034 0:034 3:4 5 0:7534000 : : :4400 �1:82 : : :�1:20 0:034 : : :0:115 0:081 8:1 8 0:0014400 : : :4800 �1:20 : : :�0:59 0:115 : : :0:278 0:163 16:3 14 0:3254800 : : :5200 �0:59 : : : 0:02 0:278 : : :0:492 0:214 21:4 22 0:0175200 : : :5600 0:02 : : : 0:63 0:492 : : :0:736 0:244 24:4 20 0:7935600 : : :6000 0:63 : : : 1:24 0:736 : : :0:893 0:157 15:7 24 4:3886000 : : : 1:24 : : : 0:893 : : :1:000 0:107 10:7 7 1:279
1:000 100:0 100 7:556
254 6 Test von statistischen Hypothesen
�20 = 7:556 6> 9:49 = �24;0:95 (Tab. A.3 im Anhang)
Auf dem 5%-Niveau besteht also kein Grund, die Hypothese der (5189; 6552)-Normal-verteilung abzulehnen.
Die Anzahl der Freiheitsgrade betr�agt in diesem Fall r � k � 1 = 7 � 2 � 1 = 4, dazwei Parameter (Mittelwert und Standardabweichung) aus den Me�werten gesch�atzt
wurden.
Der folgende Test erfolgt mit dem gleichen Datensatz auf eine (5000; 7002)-normalver-teilte Grundgesamtheit, also:
H0 : X � (5000; 7002)-n.v. H1 : X 6� (5000; 7002)-n.v.
In diesem Fall werden keine Parameter gesch�atzt. Infolgedessen existieren r � k � 1 =7� 0� 1 = 6 Freiheitsgrade.
Intervallx� 5000
700�
�x� 5000
700
�pi Ei Bi
(Bi �Ei)2
Ei
: : : 4000 : : :�1:43 0:000 : : :0:076 0:076 7:6 5 0:894000 : : :4400 �1:43 : : :�0:86 0:076 : : :0:195 0:119 11:9 8 1:284400 : : :4800 �0:86 : : :�0:29 0:195 : : :0:386 0:191 19:1 14 1:364800 : : :5200 �0:29 : : : 0:29 0:386 : : :0:614 0:228 22:8 22 0:035200 : : :5600 0:29 : : : 0:86 0:614 : : :0:805 0:191 19:1 20 0:045600 : : :6000 0:86 : : : 1:43 0:805 : : :0:924 0:119 11:9 24 12:306000 : : : 1:43 : : : 0:924 : : :1:000 0:076 7:6 7 0:05
1:000 100:0 100 15:95
�20 = 15:95 > 12:59 = �26;0:95 (Tab. A.3 im Anhang)
Auf dem 5%-Niveau ist die Hypothese der (5000; 7002)-Normalverteilung abzulehnen.
6.6.2 �2-Test zum Pr�ufen von H�au�gkeiten
Der �2-Test eignet sich auch zur �Uberpr�ufung von theoretischen H�au�gkeitsverteilun-gen mit empirischen H�au�gkeitsverteilungen. Sei Bi die beobachtete H�au�gkeit desi-ten Ereignisses und Ei die aufgrund einer angenommenen Verteilung zu erwartendeH�au�gkeit des Ereignisses, dann erfolgt der Test nach dem Schema in Tab. 6.13.
Testgr�o�e: �20 =
rXi=1
(Bi �Ei)2
Ei
H0: X � F (x)
H1: Ablehnung von H0, wenn
X 6� F (x) �20 > �2r�k�1;1�� (Tab. A.3)
Tabelle 6.13: �2-Test zum Pr�ufen von H�au�gkeiten
6.6 Test der Verteilungsfunktion und Kontingenztafelanalyse 255
Beispiele:
1. Bei Erbsen ist am Genlocus f�ur die Kornfarbe das Allel R f�ur eine runde Form der
K�orner dominant �uber das Allel r f�ur eine kantige Kornform. Die Kornfarbe gelb
ist dominant �uber gr�un und wird an einem anderen Genlocus durch die Allele G
bzw. g codiert. Kreuzt man zwei in diesen Merkmalen reinerbige Zuchtlinien, z.B.
P anzen mit runden gelben K�ornern und P anzen mit kantigen gelben K�ornern, in
der Parentalgeneration P miteinander, so erh�alt man in der ersten Filialgeneration
F1 ausschlie�lich mischerbige P anzen nach folgendem Kreuzungsschema:
Genotyp in P RRGG � rrgg
Gameten RG rg
Genotyp in F1 RrGg
Die F1-Generation kann vier verschiedene Typen von Gameten produzieren, so da�
die Genotypenverteilung in der zweiten Filialgeneration nach Kreuzung der F1-
Generation nach folgendem Schema bestimmt werden kann:
Gameten RG Rg rG rg
RG RRGG RRGg RrGG RrGg
Rg RRGg RRgg RrGg Rrgg
rG RrGG RrGg rrGG rrGg
rg RrGg Rrgg rrGg rrgg
Die Ph�anotypenverteilung in der F2 ist also:
rund gelb R-G- 9rund gr�un R-gg 3kantig gelb rrG- 3kantig gr�un rrgg 1
Gregor Mendel erhielt bei einem seiner Kreuzungsversuche in der F2-Generation
315 Erbsenp anzen mit runden gelben K�ornern 108 P anzen mit runden gr�unen
Erbsen, 105 P anzen mit kantigen gelben K�orner und 32 Erbsenp anzen mit kanti-
gen gr�unen K�ornern. Die beobachteten H�au�gkeiten sollten nach Mendels Theorie
dem Verh�altnis 9 : 3 : 3 : 1 entsprechen. Diese Hypothese wird mit dem �2-Test
gepr�uft.
theoretisches Zahl der P anzenVerh�altnis beobachtet theoretisch
Erbsen pi Bi Ei = 556 � pi(Ei �Bi)
2
Ei
rund; gelb 9=16 315 312:75 0:0162rund; gr�un 3=16 108 104:25 0:1349kantig; gelb 3=16 101 104:25 0:1013kantig; gr�un 1=16 32 34:75 0:2176
1 556 556:00 0:4700
256 6 Test von statistischen Hypothesen
Es wird nun mit MINITAB der Wert der Verteilungsfunktion an der Stelle 0:47bei 3 Freiheitsgraden berechnet.
MTB > cdf 0.47;
SUBC> chisquare 3.
0.4700 0.0746
Es besteht wegen des hohen p-Werts von 1�0:0746 = 0:9254 Grund zu der Annah-
me, da� das hypothetische Spaltungsverh�altnis auch zutri�t. Das Gegenteil k�onnte
nicht einmal auf dem 90%-Niveau gesichert werden.
2. Die Gen- oder Allelfrequenz eines Allels ist der relative Anteil des Allels an einem
Genlocus. Bei der Rinderrasse Shorthorn existiert ein dialleler Locus, der f�ur die
Fellfarbe codiert. Der Erbgang ist intermedi�ar. Die folgende Tabelle zeigt die Geno-
und Ph�anotypen sowie deren Anteile an einer Stichprobe von 6000 Herdbuchshor-
thorns4.
Genotyp Ph�anotyp Anteil
RR rot 47.6%RS rotschimmelig 43.8%SS wei� 8.6%
Ist p die Genfrequenz des Allels R und q die Genfrequenz des Allels S, dann gilt:
p + q = 1. Eine Population be�ndet sich im genetischen Gleichgewicht, wenn die
Verteilung der Genotypen (p+ q)2 = p2 RR+ 2pq RS+ q2 SS betr�agt.
Es soll zun�achst auf dem Signi�kanzniveau � = 5% die Nullhypothese gepr�uft
werden, da� sich die Population im genetischen Gleichgewicht mit p = 0:7 und
q = 1� p = 0:3 be�ndet.
pi Ei Bi(Bi �Ei)
2
Ei
RR 0:49 2940 2856 2:40RS 0:42 2520 2628 4:63SS 0:09 540 516 1:07
1:00 6000 6000 8:10
Die Anzahl der Freiheitsgrade betr�agt in diesem Fall 2, da drei Genotypen vorhan-
den sind und kein Parameter gesch�atzt wird.
�20 = 8:10 > �22;0:95 = 5:99 (Tab. A.3 im Anhang)
Damit wird die Nullhypothese auf dem vorgegebenen Signi�kanzniveau von 5%abgelehnt.
Die Allelfrequenzen kann man aus den gegebenen Daten sch�atzen. In den roten
Tieren kommen ausschlie�lich R-Allele vor, in den rotschimmeligen nur zur H�alfte,
in den wei�en gar keine. Die gesch�atzte Genfrequenz bp ist dann:bp = 0:476 + 0:438=2 = 0:695
Damit folgt automatisch f�ur die Frequenz bq des Alternativallels S:bq = 1� 0:695 = 0:305
4aus Pirchner F. 1979: Populationsgenetik in der Tierzucht. Paul Parey Verlag.
6.6 Test der Verteilungsfunktion und Kontingenztafelanalyse 257
pi Ei Bi(Bi �Ei)
2
Ei
RR 0:483 2898 2856 0:61RS 0:424 2544 2628 2:77SS 0:093 558 516 3:16
1:00 6000 6000 6:54
Die Anzahl der Freiheitsgrade betr�agt in diesem Fall 1, da drei Genotypen vorhan-
den sind und die Allelfrequenz von R gesch�atzt wird. Die Frequenz von S wird nicht
gesch�atzt, sondern zu bq = 1� bp berechnet.�20 = 6:54 > �21;0:95 = 3:84
Damit wird die Nullhypothese auf dem vorgegebenen Signi�kanzniveau von 5% auch
hier abgelehnt.
Eine Erkl�arung, da� sich die Population nicht im genetischen Gleichgewicht be�n-
det, ist vermutlich eine Bevorzugung von Rotschimmeln bei der Herdbuchanmel-
dung.
6.6.3 �2-Test zum Pr�ufen auf Unabh�angigkeit
In vielen praktischen Fragestellungen erfolgt eine zweifache Klassi�zierung eines Beob-achtungsmaterials. Beide Merkmale sollten nur nominal sein. Sie sollten also nicht ineine Reihenfolge gebracht werden k�onnen. Kann n�amlich ein Merkmal geordnet wer-den (z.B. stark { mittel { gering), so sollte nach M�oglichkeit der Kruskal-Wallis-Testbevorzugt werden (siehe Band 2).
Das Datenmaterial sei bez�uglich des 1. Merkmals in k Gruppen unterteilt, bez�uglichdes 2. Merkmals in l Gruppen. Man erh�alt dann eine Zweiwegetafel oder zweidi-mensionale Kontingenztafel von folgendem allgemeinen Typ:
2. Merkmal1. Merkmal 1 2 : : : j : : : l
P1 B11 B12 : : : B1j : : : B1l B1:
2 B21 B22 : : : B2j : : : B2l B2:
......
......
......
i Bi1 Bi2 : : : Bij : : : Bil Bi:
......
......
......
k Bk1 Bk2 : : : Bkj : : : Bkl Bk:PB:1 B:2 : : : B:j : : : B:l B:: = n
Der Gesamtumfang der Stichprobe ist n und ist nach den zwei verschiedenen diskretenMerkmalen klassi�ziert. Gepr�uft werden soll die Nullhypothese der Unabh�angigkeit,d.h. das 1. Merkmal beein u�t das 2. Merkmal nicht und umgekehrt. Man kann den Testaber auch als Pr�ufung von H�au�gkeiten interpretieren. Wenn keine Beziehung zwischenden beiden Merkmalen besteht, dann mu� sich theoretisch eine zu den Randh�au�gkeitenproportionale H�au�gkeitsverteilung erwarten lassen.
258 6 Test von statistischen Hypothesen
Bij ist die beobachtete H�au�gkeit in der i-ten Gruppe des 1. Merkmals und in derj-ten Gruppe des 2. Merkmals. Bi: ist die Randh�au�gkeit der i-ten Gruppe, B:j ist dieRandh�au�gkeit der j-ten Gruppe.
Die erwarteten H�au�gkeiten Eij in der i-ten Gruppe des 1. Merkmals und der j-tenGruppe des 2. Merkmals sind dann:
Eij =Bi: �B:j
n(6.44)
Als approximativ �2-verteilte Testgr�o�e dient:
�20 =
kXi=1
lXj=1
(Bij �Eij)2
Eij
(6.45)
Einfacher handzuhaben ist folgende Pr�ufgr�o�e:
�20 = n �0@ kX
i=1
lXj=1
B2ij
Bi: � B:j
� 1
1A (6.46)
Die Anzahl der Freiheitsgrade ist (k � 1) � (l � 1). Die Zahl der Freiheitsgrade gibt dieZahl der Felder einer Zweiwegetafel an, f�ur die man die H�au�gkeiten frei w�ahlen kann,wenn die Randh�au�gkeiten gegeben sind. Die erwarteten H�au�gkeiten sollten � 1 sein.Ansonsten sind mehrere Felder zusammenzufassen, um diese Bedingung zu erf�ullen.
Das Testschema zeigt Tab. 6.14.
Testgr�o�e: �20 =
kXi=1
lXj=1
(Bij �Eij)2
Eij
= n �0@ kX
i=1
lXj=1
B2ij
Bi: � B:j
� 1
1A
H0: Unabh�angigkeit
H1: Ablehnung von H0, wenn
Abh�angigkeit �20 > �2(k�1)(l�1);1�� (Tab. A.3)
Tabelle 6.14: �2-Test zum Pr�ufen auf Unabh�angigkeit
6.6 Test der Verteilungsfunktion und Kontingenztafelanalyse 259
Beispiel:
Bei einer Umfrage unter Mitgliedern von vier verschiedenen Parteien konnten die Pro-
banden mit \ja\, \nein\, oder \wei� nicht\ antworten. Das Ergebnis zeigt folgende
Kontingenztafel:
AntwortPartei ja nein wei� nicht
PA 30 19 16 65B 8 8 39 55C 12 12 24 48D 22 9 11 42P
72 48 90 210
Wenn die Parteimitglieder bez�uglich ihrer Meinungen homogen sind, dann sollten die
theoretischen H�au�gkeiten in den einzelnen Unterklassen proportional zu den einzelnen
Randh�au�gkeiten sein.
Die zu erwartenden H�au�gkeiten f�ur Partei A berechnen sich zu:
EA�ja = E11 =65 � 72210
= 22:29
EA�nein = E12 =65 � 48210
= 14:86
EA�wei� nicht = E13 =65 � 90210
= 27:86
Man erh�alt insgesamt folgende zu erwartenden H�au�gkeiten:
AntwortPartei ja nein wei� nicht
PA 22:29 14:86 27:86 65:01B 18:86 12:67 23:57 55:10C 16:46 10:97 20:57 48:00D 14:40 9:60 18:00 42:00P
72:01 48:10 90:00 210:11
Zu testen ist nun die Nullhypothese: Die Meinung ist unabh�angig von der Parteizu-
geh�origkeit. Man kann die Nullhypothese auch noch anders ausdr�ucken: Zwischen der
beobachteten und der zu erwartenden Verteilung der Grundgesamtheit (d.h. aller Par-
teimitglieder) besteht bei Unabh�angigkeit der Merkmale kein Unterschied.
260 6 Test von statistischen Hypothesen
Die Berechnung der Testgr�o�e nach Gleichung (6.46) ergibt:
�20 = 210 �0@ 4X
i=1
1
Bi:
�3X
j=1
B2ij
B:j
� 1
1A =
= 210 ��1
65��900
72+361
48+256
90
�+
1
55��64
72+64
48+1521
90
�+
+1
48��144
72+144
48+576
90
�+
1
42��484
72+81
48+121
90
�� 1
�=
= 210 ��1
65� (12:5 + 7:5 + 2:8) +
1
55� (0:9 + 1:3 + 16:9)+
+1
48� (2:0 + 3:0 + 6:4) +
1
42� (6:7 + 1:7 + 1:3)� 1
�=
= 210 � (0:35 + 0:35 + 0:24 + 0:23� 1) = 35:7
Die Zahl der Freiheitsgrade betr�agt (4� 1) � (3� 1) = 6
Es ist �20 = 35:7 > 16:81 = �26;0:99 (Tab. A.3 im Anhang). Damit ist eine Abh�angigkeit
der Meinung zur gestellten Frage von der Parteizugeh�origkeit auf dem 1%-Signi�kanz-niveau statistisch gesichert.
MINITAB f�uhrt die Kontingenztafelanalyse zwar nicht automatisch aus, berechnet je-
doch zumindest die �2-Testgr�o�e. In der folgenden Session wird die Kontingenztafel
mit dem read-Befehl eingelesen und anschlie�end das Kommando chisquare f�ur die
Spalten c1 bis c3 eingegeben.
MTB > read c1-c3
DATA> 30 19 16
DATA> 8 8 39
DATA> 12 12 24
DATA> 22 9 11
DATA> end
4 ROWS READ
MTB > chisquare c1-c3
6.6 Test der Verteilungsfunktion und Kontingenztafelanalyse 261
Expected counts are printed below observed counts
C1 C2 C3 Total
1 30 19 16 65
22.29 14.86 27.86
2 8 8 39 55
18.86 12.57 23.57
3 12 12 24 48
16.46 10.97 20.57
4 22 9 11 42
14.40 9.60 18.00
Total 72 48 90 210
ChiSq = 2.670 + 1.155 + 5.047 +
6.251 + 1.662 + 10.099 +
1.207 + 0.096 + 0.571 +
4.011 + 0.038 + 2.722 = 35.530
df = 6
MTB > invcdf 0.99;
SUBC> chisquare 6.
0.9900 16.8119
Der Output enth�alt die erwarteten H�au�gkeiten unter den beobachteten sowie die
Randh�au�gkeiten. Es wird die chi2-Testgr�o�e und die Zahl der Freiheitsgrade aus-
gegeben. Diese kann man dann mit der entsprechenden Fraktile vergleichen, die hier
ebenfalls mit MINITAB berechnet wurde.
Das Testergebnis ist nat�urlich identisch mit dem Ergebnis des per Hand ausgef�uhrten
Tests.
6.6.4 �2-Test bei einer einfachen Zweiwegklassi�kation
Wenn bei beiden Merkmalen jeweils nur zwei Klassen oder zwei Auspr�agungen vor-liegen, kann man ein abgek�urztes Verfahren verwenden. Man erh�alt dann eine sog.2� 2-Tafel oder Vierfeldertafel.
2. Merkmal1. Merkmal 1 2
P1 a b a+ b
2 c d c+ dPa+ c b+ d n
Man berechnet sich aufgrund dieser Tabelle folgende Testgr�o�e �20, die ebenfalls ap-proximativ �2-verteilt ist mit einem Freiheitsgrad.
�20 =n � (a � d� b � c)2
(a+ b) � (c+ d) � (a+ c) � (b+ d)(6.47)
262 6 Test von statistischen Hypothesen
Das Testschema zeigt Tab. 6.15.
Testgr�o�e: �20 =n � (a � d� b � c)2
(a+ b) � (c+ d) � (a+ c) � (b+ d)
H0: Unabh�angigkeit
H1: Ablehnung von H0, wenn
Abh�angigkeit �20 > �21;1�� (Tab. A.3)
Tabelle 6.15: �2-Test zum Pr�ufen einer Vierfeldertafel
Der Test darf jedoch nur angewendet werden, wenn alle erwarteten H�au�gkeiten (diein der Tabelle gar nicht mehr auftauchen und proportional den Randh�au�gkeiten aus-zurechnen sind) gr�o�er als 4 sind und der Gesamtumfang gr�o�er als 50 ist. Selbst wenndiese Bedingungen erf�ullt sind, ist der so durchgef�uhrte Test nicht besonders exakt. Erh�alt das geforderte Signi�kanzniveau � sogar bei einigerma�en gro�en zu erwartendenH�au�gkeiten noch nicht ein, d.h. die Irrtumswahrscheinlichkeit 1. Art, also die Wahr-scheinlichkeit, die Hypothese der Unabh�angigkeit abzulehnen, obwohl sie richtig ist, istin Wirklichkeit etwas gr�o�er als �. Es sollte deshalb nach M�oglichkeit einer exaktenAnalyse der Vierfeldertafel mit dem Test von Fisher oder dem exakten �2-Test stetsder Vorzug gegeben werden (siehe dazu Band 2).
Beispiel:
Es sollen zwei Medikamente A und B auf ihren Behandlungserfolg an insgesamt 200Patienten getestet werden. Die Ergebnisse werden in folgender Vierfeldertafel zusam-
mengefa�t:
Medikament ohne Erfolg mit ErfolgP
A 20 95 115B 5 80 85P
25 175 200
Die Nullhypothese lautet: Der Behandlungserfolg ist unabh�angig vom verwendeten Me-
dikament.
Die Testgr�o�e ist:
�20 =200 � (20 � 80� 5 � 95)2
25 � 175 � 115 � 85 = 5:92
Damit folgt: �20 = 5:92 > 3:84 = �21;0:95 (Tab. A.3 im Anhang). Die Unabh�angig-
keitshypothese wird abgelehnt. Das Medikament A hat also einen vom Medikament B
signi�kant (� = 5%) verschiedenen Behandlungserfolg.
6.6 Test der Verteilungsfunktion und Kontingenztafelanalyse 263
Wenn man die Richtung eines vermuteten Gr�o�enunterschieds kennt, dann kann mansich vor dem Test auch zu einer einseitigen Alternative entscheiden. Ist also bekannt,da� z.B. ein Medikament auf keinen Fall schlechter sein kann als ein Placebo, dann kannder Test H0 : Medikament = Placebo gegen H1 : Medikament > Placebo erfolgen. DieTestst�arke ist hier nat�urlich gr�o�er als im zweiseitigen Fall, d.h. ein vorhandener Un-terschied wird bereits bei geringeren Unterschieden der Stichprobenwerte gesichert. Istjedoch a priori nichts �uber die Wirkung bekannt (z.B. beim Vergleich zweier Medika-mente) dann ist der zweiseitige Test anzuwenden. Die entsprechenden Fraktilen f�ur den�2-Test bei der einseitigen Alternative ergeben sich aus:
peinseitig = 0:5 � pzweiseitig (6.48)
Ein Vergleich der �2-Fraktilen bei einem Freiheitsgrad liefert folgende Tabelle:
Signi�kanzniveauFraktilen 10% 5% 2:5% 1% 0:1%
zweiseitig 2:71 3:84 5:02 6:63 10:83einseitig 1:64 2:71 3:84 7:88 9:55
264 6 Test von statistischen Hypothesen
6.7 Test auf Ausrei�er
Manchmal treten in einer Reihe von Beobachtungen einzelne Werte auf, die extremhoch oder niedrig im Vergleich zu den �ubrigen Werten sind. Solche Werte sind u.U.durch Fehler des Me�ger�ats oder fehlerhaftes Ablesen bzw. Notieren der Me�werteverursacht. Man bezeichnet sie als Ausrei�er, denn es besteht Grund zur Annahme,da� sie aus einer anderen Grundgesamtheit stammen. Ausrei�er werden gew�ohnlichvor einer weiteren statistischen Analyse aus dem Datensatz eliminiert. Wie erkenntman jedoch Ausrei�er? In der explorativen Statistik existieren f�ur ausrei�erverd�achti-ge Werte die Begri�e \au�en\ und \weit au�en\. Um inferenzstatistisch vorzugehen,mu� vorausgesetzt werden, da� die Grundgesamtheit, aus der die Stichprobe stammt,normalverteilt ist.
In erster N�aherung kann man als Faustregel festhalten, da� bei mindestens 10 Beob-achtungswerten ein Wert einen Ausrei�er darstellt, wenn er nicht in das Intervall x�4sf�allt, wobei x und s ohne den fraglichen Ausrei�erwert berechnet werden m�ussen. BeiAnnahme einer Normalverteilung umfa�t der 4�-Bereich [�� 4�; �+ 4�] 99:99% allerWerte. Das Auftreten einer Beobachtung au�erhalb dieses Intervalls ist also mit 0:01%Wahrscheinlichkeit so unwahrscheinlich, da� man vern�unftigerweise annehmen kann, erstammt aus einer anderen Grundgesamtheit.
F�ur Stichproben bis zum Umfang 25 hat Dixon ein Testverfahren vorgeschlagen, dasje nach Stichprobenumfang verschiedene Testgr�o�en emp�ehlt. Zur Herleitung diesesVerfahrens ben�otigt man sog. Ordnungsstatistiken (engl. order statistics), deren Be-handlung den Rahmen dieser Einf�uhrung sprengen w�urde. Unter einer Ordnungsstati-stik versteht man beispielsweise die Verteilung der Spannweite, also der Di�erenz zwi-schen gr�o�ter und kleinster Beobachtung. Um das Verfahren von Dixon zu beschreiben,wird davon ausgegangen, da� die Stichprobenwerte der Gr�o�e nach geordnet vorliegen,also:
x1 � x2 � : : : � xn oder x1 � x2 � : : : � xn
Man bildet nun die absolute Di�erenz des fraglichen Ausrei�ers x1 (also des gr�o�tenoder kleinsten Werts) je nach Stichprobenumfang mit seinen Nachbarwerten x2 oderx3 und bezieht diese Di�erenz auf die Spannweite jx1 � xnj bzw. auf jx1 � xn�1j oderjx1 � xn�2j. Tab. 6.165 zeigt die je nach Stichprobenumfang n zu verwendende Test-gr�o�e. �Uberschreitet der Wert der Testgr�o�e die angegebenen Testschranken, so wirdder fragliche Wert auf dem entsprechenden Signi�kanzniveau als Ausrei�er angesehen.
5Dixon W.J. 1953: Processing data for outliers, Biometrics 9, 74{89.
6.7 Test auf Ausrei�er 265
n � = 0:10 � = 0:05 � = 0:01 Testgr�o�e����x1 � x2
x1 � xn
����3 0:886 0:941 0:9884 0:679 0:765 0:8895 0:557 0:642 0:7806 0:482 0:560 0:6987 0:434 0:477 0:597 ���� x1 � x2
x1 � xn�1
����8 0:497 0:554 0:6839 0:441 0:512 0:63510 0:409 0:477 0:597 ���� x1 � x3
x1 � xn�1
����11 0:517 0:576 0:67912 0:490 0:546 0:64213 0:467 0:521 0:615 ���� x1 � x3
x1 � xn�2
����14 0:492 0:546 0:64115 0:472 0:525 0:61616 0:454 0:507 0:59517 0:438 0:490 0:57718 0:424 0:475 0:56119 0:412 0:462 0:54720 0:401 0:450 0:53521 0:391 0:440 0:52422 0:382 0:430 0:51423 0:374 0:421 0:50524 0:367 0:413 0:49725 0:360 0:406 0:489
Tabelle 6.16: Signi�kanzschranken beim Dixon-Ausrei�ertest
266 6 Test von statistischen Hypothesen
F�ur Stichprobenumf�ange mit n � 20 kann man ein Verfahren anwenden, das auf David,Hartley und Pearson zur�uckgeht. Es benutzt als Testgr�o�e sie sog. studentisierteSpannweite:
z0 =jx1 � xnj
s(6.49)
Man vergleicht z0 mit den Schwellenwerten z der Tab. 6.176. �Uberschreitet die Test-gr�o�e z0 den entsprechenden Schwellenwert z, dann berechnet man zus�atzlich jx1 � xjund jx� xnj. Falls jx1 � xj gr�o�er ist als jx� xnj, so betrachtet man x1 als Ausrei�er,wenn jedoch jx1 � xj kleiner ist als jx � xnj, dann wird xn als Ausrei�er klassi�ziert.Anschlie�end kann der Test erneut auf die restlichen n� 1 Beobachtungen angewandtwerden.
Testgr�o�e: z0 =jx1 � xnj
s
n � = 0:100 � = 0:050 � = 0:025 � = 0:010 � = 0:005
20 4:32 4:49 4:63 4:79 4:9130 4:70 4:89 5:06 5:25 5:3940 4:96 5:15 5:34 5:54 5:6950 5:15 5:35 5:54 5:77 5:9160 5:29 5:50 5:70 5:93 6:0980 5:51 5:73 5:93 6:18 6:35100 5:68 5:90 6:11 6:36 6:54150 5:96 6:18 6:39 6:64 6:84200 6:15 6:38 6:59 6:85 7:03500 6:72 6:94 7:15 7:42 7:601000 7:11 7:33 7:54 7:80 7:99
Tabelle 6.17: Signi�kanzschranken beim Pearson-Ausrei�ertest
Beispiel:
Es wurde der Nitratgehalt N von 23 Grundwasserproben untersucht. Die Nitratgehalte[ppm] der Gr�o�e nach geordnet sind:
39 43 45 47 47 48 48 48 48 49 49 4950 50 50 50 51 51 51 52 53 54 56
Die empirische H�au�gkeitsverteilung des Nitratgehalts zeigt Bild 6.5.
Bis auf den Wert 39 ppm scheinen die Nitratgehalte ann�ahernd normalverteilt zu sein.
M�oglicherweise liegt ein Me�fehler bei der Kjeldahl-Analyse vor. Es soll deshalb �uber-
pr�uft werden, ob der kleinste Wert als Ausrei�er klassi�ziert werden kann.
6David H.A., Hartley H.O., Pearson E.S. 1954, The distribution of the ratio in a single normal
sample of range to standard deviation, Biometrika 41, 482.
6.7 Test auf Ausrei�er 267
56545250484644424038
7
6
5
4
3
2
1
0
Nitratgehalt [ppm]H
äu
figke
it
AAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAA
AAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAA
AAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAA
AAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAA
AAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAA
AAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAA
AAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAA
AAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAA
AAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAA
AAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAA
AAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAA
AAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAA
AAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAA
AAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAA
AAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAA
AAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAA
AAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAA
AAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAA
AAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAA
AAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAA
AAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAA
AAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAA
AAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAA
AAAAAAAAAAAAAAAAAAAA
AAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAA
AAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAA
AAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAA
AAAAAAAAAAAAAAAAAAAA
AAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAA
AAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAA
AAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAA
AAAAAAAAAAAAAAAAAAAA
56545250484644424038
7
6
5
4
3
2
1
0
Nitratgehalt [ppm]H
äu
figke
it
AAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAA
AAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAA
AAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAA
AAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAA
AAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAA
AAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAA
AAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAA
AAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAA
AAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAA
AAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAA
AAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAA
AAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAA
AAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAA
AAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAA
AAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAA
AAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAA
AAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAA
AAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAA
AAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAA
AAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAA
AAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAA
AAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAA
AAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAA
AAAAAAAAAAAAAAAAAAAA
AAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAA
AAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAA
AAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAA
AAAAAAAAAAAAAAAAAAAA
AAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAA
AAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAA
AAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAA
AAAAAAAAAAAAAAAAAAAA
Bild 6.5: H�au�gkeitsverteilung des Nitratgehalts im Grundwasser
Mittelwert und Standardabweichung der Stichprobe sind N = 49:0 ppm und sN =3:56 ppm. Mittelwert und Standardabweichung der Stichprobe ohne den Ausrei�erwert
sind N0
= 49:5 ppm und sN 0 = 2:87 ppm.
Das Intervall N0 � 4sN 0 ist [38; 61]. Darin ist der Wert 39 enthalten und gilt demnach
nicht als Ausrei�er.
Der sch�arfere Test nach Dixon hat als Testgr�o�e bei einem Stichprobenumfang von
n = 23 die Testgr�o�e
���� N1 �N3
N1 �N21
���� =����39� 45
39� 53
���� = 0:429. Dieser Wert �uberschreitet die
Signi�kanzschranke 0:421 bei � = 0:05 und n = 23 in Tab. 6.16 und gilt deshalb auf
dem 5%-Signi�kanzniveau als Ausrei�er.
Der Test nach Pearson hat die Testgr�o�e z0 =jN1 �Nnj
sN=j39� 56j3:56
= 4:78. Der
Schwellenwert bei n = 23 und � = 0:05mu� aus Tab. 6.17 durch Interpolation gesch�atzt
werden. Er ergibt sich zu 4:49 + 3 � 4:89� 4:49
10= 4:61. Die Testgr�o�e ist gr�o�er als
dieser Wert, deshalb liegt entweder ein Ausrei�er von 39 ppm oder von 56 ppm vor.
Dies �uberpr�uft man durch den Vergleich von jN1 �N j = 10:04 mit jN �Nnj = 6:96.Die erste Di�erenz ist gr�o�er als die zweite. Der Ausrei�er ist also der Wert 39 ppm.
Die Anwendung des Tests auf die restlichen Stichprobenwerte liefert keinen weiteren
Ausrei�er.
268 6 Test von statistischen Hypothesen
6.8 Test der Normalverteilung
In Abschnitt 6.6.1 wurde bereits der �2-Test f�ur beliebige Verteilungsfunktionen vor-gestellt, mit dem nat�urlich auch die Hypothese der Normalverteilung �uberpr�uft werdenkann.
Ein visueller Test der Normalverteilung ist durch die Auftragung des Histogramms derStichprobenwerte m�oglich. Wenn dieses stark von einer Glockenkurve abweicht, beste-hen Zweifel an der Normalverteilung der Grundgesamtheit. Dies dr�uckt sich auch ineiner o�ensichtlichen Abweichung der Summenh�au�gkeiten im Wahrscheinlichkeitspa-pier (vgl. Kap. 3.1.2) oder im Quantil-Quantil-Plot aus (vgl. Kap. 3.1.5). Aufbauend aufdiesen Darstellungen der Summenh�au�gkeiten oder den Quantils- bzw. Normalwertenals Geraden existiert ein m�achtiger Test, der unter dem Namen Shapiro-Wilk-Test
bekannt ist.
In einem Quantil-Quantil-Plot tr�agt man die der Gr�o�e nach geordneten Stichproben-werte x(i)
7 gegen die entsprechenden Quantilswerte u(i) der Standardnormalverteilung,Normalwerte oder normal scores genannt, auf. Stammt die Stichprobe aus einerNormalverteilung, dann liegen die Werte ann�ahernd auf einer Geraden. Die Berechnungder Quantilswerte verl�auft bei n Werten nach folgenden Regeln. Dem i-ten kleinsten
Wert wird jeweils der Normalwert u(i) = ��1�i� 3=8
n+ 1=4
�zugeordnet. Dabei ist ��1
die Inverse der Standardnormalverteilungsfunktion und n der Stichprobenumfang. DieStandardnormalverteilung kann durch ��1(K%) = 4:91 � (((K%)0:14)� ((1�K%)0:14))approximiert werden. Falls mehrere Werte gleich sind, wird ihnen jeweils derselbe mitt-lere normal score zugeteilt.
Die G�ute der linearen Ann�aherung wird nach Kap. 1.3.2 durch den Korrelationskoe�-zienten gemessen. Es bietet sich daher an, diesen zwischen den Stichprobenwerten undderen normal scores zu berechnen, um die Normalverteilung zu �uberpr�ufen. Wenn dieKorrelation nahe bei 1 ist (negative Korrelationen sind wegen der gr�o�enm�a�igen Ord-nung ausgeschlossen), dann ist eine Normalverteilung nicht von der Hand zu weisen, beiexakter Normalverteilung h�atte man genau eine Gerade im Wahrscheinlichkeitsplot. Jemehr der Graph im Quantil-Quantil-Plot von einer Geraden abweicht, desto gr�o�er istdie Abweichung von der Normalverteilung. Das hei�t, wenn der Korrelationskoe�zientdeutlich kleiner als 1 ist, sind die Residuen nicht normalverteilt. Die Hypothese derNormalverteilung wird verworfen, wenn der berechnete Korrelationkoe�zient r die inAnhangstabelle A.9 aufgef�uhrten kritischen Werte rkrit: unterschreitet.
Beispiele:
1. Die Milchleistungen aus Tab. 1.8 wurden bereits in Bild 3.11 des Beispiels auf Seite
145 als Quantil-Quantil-Plot dargestellt. Eine Berechnung des Korrelationskoe�zi-
enten zwischen den Stichprobenwerten und den normal scores mit MINITAB bringt
folgendes Ergebnis:
MTB >correlation 'Milch' 'Quantil'
Correlation of Milch and Quantil = 0.995
7der geklammerte Index deutet auf die gr�o�enm�a�ige Ordnung hin.
6.8 Test der Normalverteilung 269
Aus Tab. A.9 liest man f�ur n = 100 und � = 10% einen kritischen Wert von
rkrit: = 0:9898 ab. Der berechnete Korrelationskoe�zient von r = 0:995 ist also
gr�o�er als der kritische Wert. Die Hypothese der Normalverteilung kann also auf
10% Signi�kanzniveau nicht abgelehnt werden.
2. InMINITAB existiert auch ein Makro8 normplotmit dem Unterkommando swtest
zur Durchf�uhrung des Shapiro-Wilk-Tests. Mit diesem werden nun die Milchleistun-
gen aus Tab. A.10 im Anhang getestet. Die Dateneingabe ist in Kap. 1.6 beschrie-
ben.
MTB > %normplot 'ML(kg)';
SUBC> swtest.
Bild 6.6 zeigt den Quantil-Quantil-Plot und das Testergebnis. Aufgrund des p-Werts
von 0:0476 kann die Hypothese der Normalverteilung auf � = 5% abgelehnt werden.
Vergleicht man das zweigip ige Histogramm der Milchleistungen in Bild 1.30 mit
dem Quantil-Quantil-Plot in Bild 6.6, so dr�uckt sich der linke Gipfel in einer Ab-
weichung unterhalb der Geraden und der rechte Gipfel in einer Abweichung ober-
halb der Geraden aus. Es ist o�ensichtlich, da� hier nicht von einer normalver-
teilten Grundgesamtheit auszugehen ist. Die Zweigip igkeit resultiert daraus, da�
die Stichprobe aus verschiedenen Rassen mit normalverteilten Milchleisungen aber
unterschiedlichen Mittelwerten besteht (vgl. Kap. 1.6).
p value (approx): 0.0476R: 0.9816W-test for Normality
N of data: 120Std Dev: 722.639Average: 5512.96
7000600050004000
.999
.99
.95
.80
.50
.20
.05
.01
.001
Pro
babi
lity
ML(kg)
Normal Probability Plot
p value (approx): 0.0476R: 0.9816W-test for Normality
N of data: 120Std Dev: 722.639Average: 5512.96
7000600050004000
.999
.99
.95
.80
.50
.20
.05
.01
.001
Pro
babi
lity
ML(kg)
Normal Probability Plot
Bild 6.6: Quantil-Quantil-Plot und Shapiro-Wilk-Test der Milchleistungen aus Tab.A.10
8Ein Makro ist eine Folge von Befehlen, die in einer eigenen Datei abgespeichert sind und bei Aufruf
des Makros abgearbeitet werden. In MINITAB haben Makros die Dateierweiterung .MAC. Ihr Aufruf
erfolgt durch ein vorangestelltes %-Zeichen.
270 6 Test von statistischen Hypothesen
Ein Wahrscheinlichkeitsplot der Normalwerte w�urde �ubrigens exakt eine Gerade erge-ben und die Korrelation w�are genau 1.
6.9 Versuchsplanung und Stichprobenumfang 271
6.9 Versuchsplanung und Stichprobenumfang
Vor der Durchf�uhrung eines Experiments mu� sich der Versuchsansteller die Versuchs-frage und das statistische Ziel �uberlegen. Die Versuchsfrage wird in Form der Nullhy-pothese H0 und der Alternativhypothese H1 formuliert. Formal will man in der Regeldie Nullhypothese ablehnen und die Alternativhypothese annehmen. Dies geschiehtvor allem aus Gr�unden der Interpretation eines statistischen Tests. Die Ablehnung derNullhypothese ist statistisch aussagekr�aftiger als ihre Nichtablehnung. Meistens wirdalso der angestrebte Test als Test auf Unterschied formuliert. Das bedeutet, dieNullhypothese H0 lautet z.B. auf Gleichheit von zwei Methoden oder zwei Mitteln. DieAlternative H1 behauptet, da� sich die beiden Methoden oder Mittel unterscheiden.Grunds�atzlich ist auch ein Test m�oglich, bei dem man die Rollen von H0 und H1 ver-tauscht und einen Test auf Gleichheit oder �Aquivalenz von zwei Methoden durchf�uhrt.Ein solcher Test wird �Aquivalenztest genannt. In diesem Fall wird man die Nullhy-pothese so formulieren: Die beiden Methoden oder Behandlungsmittel unterscheidensich mindestens um einen bestimmten Betrag �. Die entsprechende Alternative H1 istdazu komplement�ar und lautet: Die beiden Methoden oder Behandlungsmittel unter-scheiden sich um weniger als � voneinander, sind also aus sachlogischer Beurteilungdes Problems heraus als �aquivalent oder bio�aquivalent anzusehen.
Beim statistischen Test auf Unterschied, der bisher behandelt wurde, lauten die Tes-thypothesen also:
H0 : �1 = �2 bzw. Behandlungsmittel 1 = Behandlungsmittel 2H1 : �1 6= �2 bzw. Behandlungsmittel 1 6= Behandlungsmittel 2
(6.50)
Der Wert f�ur die Irrtumswahrscheinlichkeit oder das Niveau � wird z.B. auf 5% fest-gelegt. Nichtablehnung von H0 bedeutet nicht, da� H0 mit Wahrscheinlichkeit 1 � �
statistisch gesichert ist. Man kann lediglich festhalten, da� die Stichprobendaten derNullhypothese nicht widersprechen. Ablehnung der Nullhypothese H0 stellt eine ArtUmkehrschlu� dar, n�amlich da� das beobachtete Ergebnis unter der Annahme von H0
so unwahrscheinlich ist, genau mit Wahrscheinlichkeit �, da� H0 falsch sein mu� unddie Alternative H1 angenommen wird. Eine Ablehnung von H0 auf dem Niveau � be-sagt, da�H1 mit einer Irrtumswahrscheinlichkeit von � angenommen wird, und da� mitder Erfolgswahrscheinlichkeit 1 � �, auch Macht oder Power des Tests genannt, eintats�achlich vorhandener Unterschied bei diesem Testverfahren auch entdeckt wird. DerFehler zweiter Art � h�angt dabei von der wahren, unbekannten Di�erenz D = �1 � �2ab.
F�uhrt man einen �Aquivalenztest durch, werden die Testhypothesen folgenderma�enformuliert:
H0 : j�1 � �2j � �H1 : j�1 � �2j < �
(6.51)
� ist eine fest gew�ahlte Grenze. Es soll hier nicht n�aher auf die praktische Durchf�uhrungeines solchen �Aquivalenztests eingegangen, denn man ben�otigt f�ur die Berechnung einer
272 6 Test von statistischen Hypothesen
entsprechenden Testgr�o�e eine nichtzentrale Verteilung, d.h. der Mittelwert der Test-gr�o�e ist ungleich Null. Dies erschwert die numerische Berechnung. Mit entsprechendenComputerprogrammen stellt diese umgekehrte Form des Testens aber prinzipiell keineSchwierigkeit dar. Es wird beispielsweise auf das Programm TESTIMATE der FirmaIDV verwiesen9.
Um z.B. einen statistischen Test auf Unterschied durchzuf�uhren, ist es sinnvoll, eineArt Versuchsplan aufzustellen, in dem neben dem Niveau � festgelegt wird, welcherUnterschied mit welcher Wahrscheinlichkeit bzw. Macht 1 � � entdeckt werden sollund welcher Stichprobenumfang dazu notwendig ist. In der Regel wird man folgender-ma�en vorgehen: Man formuliert zun�achst die Testhypothesen H0 sowie H1 und legtden biologisch oder �okonomisch relevanten Unterschied � bzw. den �Aquiva-
lenzbetrag � fest. Anschlie�end w�ahlt man das Signi�kanzniveau � sowie die Machtdes statistischen Tests 1 � �, mit der eine Di�erenz � nachgewiesen werden soll odermit der eine �Aquivalenz innerhalb der Grenze � bewiesen werden soll. Mit diesenVorgaben erfolgt die Berechnung des dazu notwendigen Stichprobenumfangs n. Beimeinfachen t-Test beispielsweise sind die Gr�o�en Stichprobenumfang n, Fehler 1. und 2.Art � bzw. � sowie der relevante Unterschied � = �1 � �2 und die Varianz �2 bzw.ein Sch�atzwert s2 durch die Beziehungen (6.7) und (6.8) festgelegt, je nachdem, ob essich um eine ein- oder zweiseitige Fragestellung handelt. Im Prinzip kann man darauseine gesuchte Gr�o�e, z.B. den notwendigen Mindeststichprobenumfang n, ausrechnen,wenn man die anderen Gr�o�en festlegt. Die Gleichungen (6.7) und (6.8) kann man zwarnicht explizit nach n au �osen, aber mit einem entsprechenden iterativen Verfahren las-sen sich die L�osungen bestimmen. Es gibt Computerprogramme, z.B. die ProgrammeN10, STPLAN11 oder PLANUNG12, welche etwa den notwendigen Stichprobenumfangf�ur viele Versuchssituationen (Me�daten, Ereignisdaten, verbundene oder unabh�angigeStichproben, Test auf Unterschied oder �Aquivalenztest) ausrechnen.
Nachfolgend werden m�ogliche Versuchsplanungen mit Hilfe des Programms N anhanddreier Beispiele durchgef�uhrt.
9TESTIMATE. IDV Datenanalyse und Versuchsplanung, Gauting 199010N. IDV Datenanalyse und Versuchsplanung, Gauting 198711STPLAN. Fortran-Programm der University of Texas Systems Cancer Center, Houston, Texas
198012PLANUNG. APL-Programm des Deutschen Krebsforschungszentrums, Heidelberg 1985
6.9 Versuchsplanung und Stichprobenumfang 273
Nach dem Aufruf von N und der Eingabe des Versuchsnamens (in diesem Fall Milch-fett), -merkmals, -datums usw. gelangt man in folgendes Men�u:
Hier legt man die Art des Versuchs und die Form der Hypothesen fest. M�oglich istein Versuch mit normalverteilten Me�daten (z.B. Milchfettgehalt, Gewicht) oder bino-mialverteilten Ergebnisdaten, d.h. Bin�ardaten mit zwei Auspr�agungen (z.B. M�unzwurfoder Tre�erergebnis). Man gibt an, ob man eine Gruppe gegen einen festen Wert testenm�ochte oder ob man zwei Gruppen gegeneinander testet, wobei man dann zwischenverbundenem und unverbundenem Test w�ahlen kann. Schlie�lich legt man die Formdes gew�unschten Tests und der Hypothesen, Test auf Unterschied oder �Aquivalenz-test, zweiseitig oder einseitig, fest. Will man z.B. den Milchfettgehalt von K�uhen miteinem einseitigen Test auf Unterschied einer Gruppe (Test) gegen einen festen Wert(Standard) testen und geht au�erdem von normalverteilten Me�daten aus, so stelltman im folgenden Men�u die gew�unschte Parameterkonstellation ein. Der Test soll z.B.gegen einen festen Wert, n�amlich gegen Standard = 3.67 [%] durchgef�uhrt werden.Es soll bei dem Test bereits eine sehr kleine Abweichung (Diff) nach unten um we-nigstens � = 0:02% Milchfettgehalt mit vern�unftiger Erfolgswahrscheinlichkeit 1 � �
und Irrtumswahrscheinlichkeit � erkannt werden, z.B. � = 5% und � = 10%. Mangibt in das Men�u folgende Werte ein: Standard = 3.67 und die praktische relevanteDi�erenz Diff = - 0.02. Der Wert f�ur Test (Test = 3.65) wird daraus automatischberechnet. Ebensogut k�onnte man den Standardwert und den Testwert vorgeben, dannergibt sich die zu erkennende Di�erenz von selbst. Es kommt letztlich nur auf den Wertder Di�erenz Diff an. Das Vorzeichen der Di�erenz gibt die Richtung des einseitigenTests an. Man gibt weiter die Standardabweichung (Sigma) bzw. einen entsprechendenSch�atzer an und w�ahlt das gew�unschte Signi�kanzniveau bzw. den Fehler 1.Art, z.B.� = 0:05, sowie die gew�unschte Macht 1 � � des Tests bzw. den Fehler 2.Art, z.B.� = 0:1. Die Stichprobengr�o�e N wird als Zielgr�o�e festgelegt (Funktionstaste F3). Star-tet man die Berechnungen (F4-Taste), dann erscheint im Feld N nach kurzer Zeit dieStichprobengr�o�e n = 175. Es m�ussen in diesem Beispiel also mindestens 175 Gemelkeuntersucht werden, um auf dem 5%-Niveau mit 90%-iger Erfolgswahrscheinlichkeit eineAbweichung nach unten von mindestens 0:02% Milchfettgehalt zu erkennen.
274 6 Test von statistischen Hypothesen
Mit der Funktionstaste F5 kann man sich die berechneten Ergebnisse etwas detaillierterauf eine Datei (mit F6 auf einen Drucker) ausgeben lassen. Der Ergebnisausdruck istweitgehend selbstbeschreibend. Zus�atzlich zu dem berechneten notwendigen Stichpro-benumfang n wird der kritische Wert f�ur den t-Test und eine Tabelle zur Operations-charakteristik ausgegeben.
6.9 Versuchsplanung und Stichprobenumfang 275
Der kritische Wert besagt: Wenn die Testgr�o�e gr�o�er als �1:654 ist, so kann manschlie�en, da� ein Unterschied von (mindestens) �0:02% Fettgehalt vorhanden ist. DerTestwert weicht also um mindestens 0:02% nach unten vom Standardwert 3:67% ab.Au�erdem wird die sogenannte Operationscharakteristik bzw. die OC-Kurve aus-gegeben. Die OC-Kurve beschreibt den Zusammenhang zwischen der wahren Di�erenzD von Test und Standard und der Wahrscheinlichkeit, diesen Unterschied zu �ubersehen,also dem �-Fehler. OC entspricht diesem Fehler 2. Art �. Aus dem Zusammenhang vonD und � l�a�t sich folgern, da� je gr�o�er die wahre Di�erenz zwischen dem Mittelwertund dem Testwert ist, desto kleiner ist die Wahrscheinlichkeit, diesen Unterschied zu
�ubersehen. Eine Di�erenz von 0:034 und gr�o�er wird praktisch immer, also mit 100%-iger Erfolgswahrscheinlichkeit, aufgedeckt. Umgekehrt ist die Wahrscheinlichkeit, einekleine Di�erenz zu �ubersehen, entsprechend hoch. Gem�a� dem Bildschirmergebnis wirdein Unterschied von 0:02 bzw. �0:02 mit 90%-iger Wahrscheinlichkeit erkannt, d.h.� = 0:1.
Es wird nun davon ausgegangen, da� eine Stichprobengr�o�e von n = 55 vorgegebenist. Um den Fehler 2. Art bei dieser Stichprobengr�o�e zu errechnen, wird das FeldFehler 2.Art als Ziel markiert (F3), die Stichprobengr�o�e N = 55 eingetragen undder Programmablauf neu gestartet (F4).
276 6 Test von statistischen Hypothesen
Es wird ein �-Fehler von 0:507 errechnet. Das bedeutet, da� bei einer Stichproben-gr�o�e von n = 55 die Erfolgswahrscheinlichkeit, eine Di�erenz von �0:02% wirklich zuerkennen, bei nur 49:3% liegt. Der Fehler, eine solche Di�erenz zu �ubersehen, ist alsosehr hoch.
Bemerkungen (siehe auch Handbuch zu N)
� Diff ist nicht die tats�achliche Di�erenz der Mittelwerte, sondern die relevante, d.h.die f�ur den Versuchsansteller relevante Di�erenz �, die mit einer Erfolgswahrschein-lichkeit von mindestens 1�� erkannt werden soll. Die jeweilige Gr�o�e der Abweichungh�angt von sachlogischen und inhaltlichen Kriterien ab, im allgemeinen wird man dieDi�erenz in der Gr�o�enordnung der Standardabweichung w�ahlen. Als Anhaltswertf�ur die relevante Di�erenz dient auch der von Cohen13 vorgeschlagene Bewertungs-ma�stab f�ur die sogenannte standardisierte Di�erenz, das ist der Quotient ausder Di�erenz Diff und der Standardabweichung Sigma:
Diff/Sigma � 0:2: kleiner UnterschiedDiff/Sigma � 0:5: mittlerer UnterschiedDiff/Sigma � 0:8: gro�er Unterschied
� F�ur die Standardabweichung Sigma wird auf einen empirischen Erfahrungswert oderSch�atzwert zur�uckgegri�en. Da er aber in jedem Fall als bekannt vorausgesetzt wird,ist die Berechnung der Standardabweichung als Zielgr�o�e mit dem ProgrammN nichtm�oglich.
� Das Signi�kanzniveau � wird in der Biostatistik meist auf 0:1%, 1%, 5% oder 10%festgesetzt. Es sind jedoch auch beliebige andere, insbesondere gr�o�ere Werte m�og-lich. Der Fehler 2. Art � wird auch vom Versuchsansteller de�niert, wobei � = 0:2schon als vern�unftige Wahl, � = 0:1 jedoch als w�unschenswert gilt. Ein Fehler 2.Art von 10% entspricht einer Macht von 90%. Das bedeutet, bei 10 durchgef�uhrten
13Cohen J. 1977: Statistical Power Analysis for the Behavioral Sciences (Revised Edition). Academic
Press, Inc., London.
6.9 Versuchsplanung und Stichprobenumfang 277
Studien wird bei 9 Studien ein Unterschied bestimmter Gr�o�e auch tats�achlich auf-gedeckt. Stets mu� die Beziehung �+� < 1 erf�ullt sein, wobei � in der Regel kleinerals � gew�ahlt wird. Es gibt verschiedene Faustregeln f�ur die gemeinsame Festlegungvon � und �, auf die anschlie�end noch eingegangen wird.
� Das Programm N macht es m�oglich, bei Vorgabe der anderen Parameter des ge-w�unschten Tests eine beliebige andere Zielgr�o�e zu de�nieren. So kann man z.B.die Stichprobengr�o�e festlegen und (bei sonst gleichen Werten) den Fehler 2. Artberechnen oder beides vorgeben und die relevante Di�erenz ausrechnen lassen usw.
� Bei einem �Aquivalenztest wird Diff (�) durch die vorgegebene Schranke Delta (�)ersetzt. Die Fehlerwahrscheinlichkeiten kehren sich entsprechend um.
Mit Hilfe von N soll untersucht werden, wie gro� das Risiko ist, die Wirkung einesblutdrucksenkenden Mittels zu �ubersehen 14, d.h. eine durchaus relevante Senkung von5 mm Hg gegen�uber der Kontrollgruppe nicht zu erkennen. Dabei stehen pro Gruppe 15Versuchstiere zur Verf�ugung. Die Standardabweichung betr�agt erfahrungsgem�a� � =10 mm Hg. Das Signi�kanzniveau wird auf � = 5% festgesetzt. Da eine Erh�ohung desBlutdrucks ausgeschlossen werden kann, wird einseitig getestet. Die Zielgr�o�e ist derFehler 2. Art. Nach Einsetzen dieser Vorgaben errechnet N ein Risiko von � = 0:621.
Das Ergebnis zeigt, da� die Wahrscheinlichkeit, eine blutdrucksenkende Wirkung vonmindestens 5 mm Hg zu erkennen, nur etwa 38% betr�agt. Das ist i.a. zu wenig, um inder Pharmakologie vorhandene E�ekte aufzudecken. In diesem Fall emp�ehlt sich einesog. �-Adjustierung, d.h. man w�ahlt ein \vern�unftiges\ Risiko 2. Art und adjustiertden Fehler 1. Art entsprechend. Man �andert die Versuchsparameter so ab, da� dieWahrscheinlichkeit, relevante Wirkungen zu �ubersehen, also der Fehler 2. Art, nun aufz.B. vertretbare 10% festgesetzt wird und der Fehler 1. Art zur neuen Zielgr�o�e wird(F3).
14vgl. Beispiel im N-Handbuch S. 66
278 6 Test von statistischen Hypothesen
N errechnet nun eine sehr hohe Irrtumswahrscheinlichkeit � = 0:465. Es bleibt demVersuchsansteller �uberlassen, ob er dieses hohe Risiko akzeptiert. Wenn nicht, bleibtnur die M�oglichkeit, den Stichprobenumfang zu erh�ohen, um bei gleicher Macht eineniedrigere Irrtumswahrscheinlichkeit zu erzielen. Wird etwa ein �-Niveau von 20% ge-fordert, dann m�ussen wenigstens 74 Tiere, 37 je Gruppe bei gleicher Stichprobengr�o�e,untersucht werden, um mit 90%-iger Wahrscheinlichkeit relevante Wirkungen aufzu-decken. Zur Berechnung wurde dazu der Fehler 1. Art auf 0:2 und der Fehler 2. Artauf 0:1 festgesetzt. Zielgr�o�e ist jetzt der Stichprobenumfang der beiden Gruppen. DasVerh�altnis der Stichprobengr�o�en N1/N2 soll 1 sein.
Bemerkungen
� Bei verbundenen Me�reihen ist neben der Standardabweichung Sigma auch der Kor-relationskoe�zient Rho anzugeben. Wie bei der Standardabweichung wird er als be-kannt vorausgesetzt, wobei auf einen empirischen Erfahrungswert oder Sch�atzwertzur�uckgegri�en wird.
6.9 Versuchsplanung und Stichprobenumfang 279
� Bei unterschiedlich gro�en Stichprobenumf�angen kann man entweder beide Gr�o�enN1 und N2 angeben, das Verh�altnis N1/N2 ergibt sich dann von selbst, oder man gibteine Gr�o�e und das Verh�altnis vor, dann ergibt sich der zweite Stichprobenumfangautomatisch. Bei gleichen Stichprobengr�o�en betr�agt das Verh�altnis 1/1.
Als abschlie�endes Beispiel soll der Wurf einer M�unze15 betrachtet werden. Beim M�unz-wurf besteht der Verdacht, da� die M�unze nicht symmetrisch ist. Es stellt sich die Frage,wie oft man die M�unze werfen mu�, um diesen Verdacht zu erh�arten. Die Nullhypo-these eines entsprechenden statistischen Tests lautet: H0 : P = 0:5, die AlternativeH1 : P 6= 0:5. Die M�unze soll als asymmetrisch gelten, wenn die Wahrscheinlichkeit Pf�ur eine Seite, Kopf oder Zahl, um mindestens 10% vom Standardwert 0:5 abweicht,der Testwert ist also 0:45 oder 0:55. Man formuliert einen zweiseitigen Test auf Unter-schied des Standards gegen einen festen Testwert mit binomialverteilten Ereignisdaten.Die Irrtumswahrscheinlichkeit � soll auf 5% festgesetzt werden, d.h. in 95% der F�allesoll eine symmetrische M�unze auch als symmetrisch erkannt werden. Die Abweichungvon 10% vom Standardwert P = 0:5 soll mit einer Wahrscheinlichkeit von 90% erkanntwerden, d.h. der Fehler 2. Art wird auf � = 0:1 festgesetzt. Das Zielfeld ist die Stich-probengr�o�e N. Nach Eintrag aller Parameterwerte und Berechnung des Programmsergibt sich folgendes Bild:
Man mu� die M�unze also mindestens 1055 mal werfen, um mit 90%-iger Erfolgswahr-scheinlichkeit eine Abweichung von 10% vom symmetrischen Standardwert zu erkennen.
Bemerkungen
� Der Fehler 1. Art wurde auf 5% festgelegt und hat sich nach den Berechnungen zu � =0:049 ge�andert. Da es sich um diskrete Ergebnisdaten handelt, ist die Bedingung � =0:05 nicht exakt erf�ullbar. Das Programm N w�ahlt daher den n�achstkleineren Wertf�ur �. Solche Spr�unge k�onnen f�ur binomialverteilte Daten bei �, � oder bei beidenGr�o�en auftreten. Im Ergebnisausdruck hei�t der vom Benutzer eingestellte Fehler1. Art nominelles und der von N berechnete Alpha-Fehler exaktes �-Risiko.
15vgl. Beispiel im N-Handbuch S. 12
280 6 Test von statistischen Hypothesen
� Im obigen Men�u wurde eine Abweichung nach oben von +0:05 (Testwert 0:55)gew�ahlt. Durch die Symmetrie der Binomialverteilung f�uhrt eine Abweichung nachunten von �0:05, also ein Testwert von 0:45, zu v�ollig identischen Ergebnissen.
Der verk�urzte Ergebnisausdruck sieht folgenderma�en aus:
Die angegebene Testentscheidung zeigt die kritischen Tre�erzahlen. Be�ndet sich dieAnzahl von Kopf (bzw. Zahl) bei n = 1055 W�urfen zwischen 496 und 559, dann kanndie Symmetrie der M�unze nicht abgelehnt werden. Unter- oder �uberschreitet die Anzahlvon Kopf (bzw. Zahl) die kritischen Tre�erzahlen, dann kann man mit einer Irrtums-wahrscheinlichkeit von � = 5% bzw. 4:9% und einer Erfolgswahrscheinlichkeit von1 � � = 90% annehmen, da� die M�unze nicht symmetrisch ist. Die OC-Kurve zeigt,da� es praktisch unm�oglich ist, d.h. das Risiko liegt nur bei � = 0:001, eine vergleichs-weise gro�e Di�erenz von 0:08 zu �ubersehen, w�ahrend man eine kleine Abweichung vonz.B. 0:01 doch in etwa 9 von 10 F�allen �ubersieht.
6.9 Versuchsplanung und Stichprobenumfang 281
Festlegung der Risiken � und �
Bei der Versuchsplanung und Vorbereitung eines statistischen Tests spielt neben demStichprobenumfang die Festlegung der beiden Risiken � und � eine wichtige Rolle. Eswurde bisher in der Regel von einem Wert 0:05 bzw. 5% f�ur das Signi�kanzniveau �
ausgegangen. In Abh�angigkeit von der Versuchsfrage und dem Ziel der Untersuchungkann man auch andere Werte f�ur � akzeptieren. Man unterscheidet verschiedene Stra-tegien, je nachdem ob man Pr�ufglieder entdecken m�ochte, die sich unterscheiden odernicht unterscheiden. Es kommt also durchaus darauf an, von welchem Blickwinkel derTest durchgef�uhrt werden soll. Man kann mit einer Kritiker-Strategie oder mit einerEntdecker-Strategie an die Versuchsplanung herangehen (vgl. CADEMO16). Ver-folgt man bei einem Test auf Unterschied eine Entdecker-Strategie f�ur die Alternativ-hypothese (also Unterschied), so akzeptiert man ein gr�o�eres �-Risiko und m�ochte einkleineres �-Risiko eingehen, z.B. � = 25% und � = 5% : : : 10%. Der Versuchsanstellerm�ochte also keine unterschiedlichen Pr�ufglieder �ubersehen und nimmt daf�ur ein h�oheresRisiko in Kauf, irrt�umlich zwei gleiche Pr�ufglieder als unterschiedlich zu erkl�aren. Dieskann durchaus in einer fr�uhen Phase eines Forschungsvorhabens angebracht sein. Ver-folgt man aber eine Entdecker-Strategie f�ur die Nullhypothese, vorausgesetzt Gleichheitwird postuliert, so wird man die Werte f�ur � und � vertauschen, also � = 5% : : : 10%und � = 25% und h�oher. Schl�agt man eine Kritiker-Strategie f�ur die Alternative ein,so m�ochte man bereits vorliegende Forschungsergebnisse �uberpr�ufen und eine sichereAussage tre�en, da� sich die Pr�ufglieder unterscheiden. Man kann die Werte von z.B.� = 5% und � � 25% akzeptieren. Eine Kritiker-Strategie f�ur die Nullhypothese istangebracht, falls man eine sichere Aussage �uber praktisch gleiche Pr�ufglieder tre�enm�ochte. Man kann dann etwa folgende Werte f�ur � und � akzeptieren: � � 25% und� = 5%. Eine neutrale Strategie f�ur beide Hypothesen wird ein Versuchsanstellereinschlagen, wenn er Forschungsergebnisse in einer Art Schiedsrichterfunktion �uber-pr�ufen will. In diesem Fall wird man f�ur � und � in etwa gleich gro�e Werte w�ahlen.Als Anhaltspunkt m�oge gelten: � = � � 25%.
16CADEMO, Dialogsystem zur statistischen Versuchsplanung und Modellwahl. BIORAT GmbH,
Rostock.