Den Box-Plots ist zu entnehmen, dass der Median der ... · Behandlungsgruppen mit Hilfe eines...

Universitätsklinikum Schleswig-Holstein ©2012 1

Viele wissenschaftliche Fragestellungen, insbesondere in der Medizin, beziehen sich auf die Länge des Zeitraums zwischen zwei bestimmten Ereignissen. So besteht z.B. ein maßgebliches Kriterium für die Güte eines therapeutischen Eingriffs in der Zeit, die ein Patient nach dem Eingriff beschwerdefrei weiterleben kann. Auch in der Medizintechnik (wie in vielen Bereichen der Ingenieurs- und Materialwissenschaften) stellt sich oft die Frage nach der Lebensdauer von Geräten, Substanzen oder Produkten.

Der Zeitraum zwischen zwei Ereignissen, von denen mindestens eines zu einem unvorhersehbaren Zeitpunkt eintritt, ist selbst wieder zufällig und variabel. Daher kann eine Lebensdauer im Sinne der Wahrscheinlichkeitstheorie als stetige Zufallsvariable aufgefasst und mithilfe statistischer Methoden näher charakterisiert werden. Jede Lebensdauer besitzt einen Erwartungswert, der sich z.B. zwischen Populationen mithilfe statistischer Test vergleichen oder in Abhängigkeit von gemessenen Einflussgrößen statistisch modellieren lässt.

Im Prinzip können auf eine Lebensdauer die gleichen statistischen Verfahren angewendet werden, wie auf jede andere stetige Zufallsvariable. Wie wir jedoch sehen werden, weisen Stichprobendaten zu Überlebenszeiten oftmals strukturelle Besonderheiten auf, die aus der Notwendigkeit bzw. der Unmöglichkeit einer engmaschigen und dauerhaften Beobachtung der Studienobjekte herrühren. Die Zeit wartet schließlich auf niemanden, auch nicht auf Wissenschaftler (lateinisch: "Tempus neminem manet"). Diese Besonderheit erfordert in vielen Fällen besondere statistische Methoden, um bei der Analyse von Überlebenszeiten zu validen wissenschaftlichen Ergebnissen zu gelangen.


In der Medizin versteht man unter Remission das vorübergehende bzw. dauerhafte Nachlassen von Symptomen einer Krankheit, ohne dass der Patient vollständig geheilt ist. Der Begriff leitet sich vom lateinischen Verb "remittere" (zurücksenden, nachlassen) ab. Im Zusammenhang mit Krebserkrankungen bedeutet "Remission", dass bei entsprechenden Laboruntersuchungen keine Metastasen oder Krebszellen nachweisbar sind. Dies bedeutet aber nicht, dass keine Krebszellen mehr vorhanden wären oder der Tumor geheilt ist.

Die Remission eines Patienten endet üblicherweise entweder mit dessen Tod oder mit einem Relaps (Rückfall, abgeleitet vom lateinischen "Relapsus").


Den Box-Plots ist zu entnehmen, dass der Median der Remissionsdauer unter den Probanden, die mit 6-MP behandelt wurden (16 Monate), doppelt so hoch war wie in der Placebo-Gruppe (8 Monate). Auch die Interquartilbereiche (d.h. die "Boxen" der beiden Plots) überlappen nur wenig. Dieser Eindruck eines deutlichen Unterschieds zwischen beiden Verteilungen wird durch das hoch signifikante Ergebnis des Wilcoxon-Test formal bestätigt.


Bekanntermaßen wird die Verteilung einer stetigen Zufallsvariablen T durch deren Verteilungsfunktion F(t)=P(T≤t) charakterisiert. Bezeichnet T jedoch eine Ereigniszeit oder eine Lebensdauer (wie z.B. die Remissionsdauer nach Leukämie), so wird F meist durch die Überlebensfunktion S(t)=1-F(t)=P(T>t) ersetzt. Die Überlebensfunktion gibt also an, mit welcher Wahrscheinlichkeit das interessierende Ereignis (in unserem Beispiel der Relaps oder krankheitsbedingte Tod des Patienten) erst nach dem Zeitpunkt t eintritt bzw. die ereignisfreie Periode (also die Remission) mindestens bis zum Zeitpunkt t anhält.


In dieser Abbildung wurden die Ereigniszeitpunkte (Relaps oder Tod) der mit 6-MP behandelten Leukämiepatienten auf einem Zeitstrahl durch Punkte markiert. Anhand dieser Darstellung lässt sich verdeutlichen, wie die Überlebensfunktion in der Verum-Gruppe aus den Stichprobendaten geschätzt werden kann. Da für jeden Zeitpunkt t die Anzahl kt der Patienten bekannt ist, die diesen Zeitpunkt in Remission überlebt haben, ergibt sich als optimale Schätzung (unverfälscht, konsistent und effizient) der zugehörigen Wahrscheinlichkeit S(t) der Anteil kt/21. Es ist zu beachten, dass in der Definition der Überlebensfunktion ein striktes Größer-Zeichen (">") auftaucht. Daher gilt z.B. ��(6)=17/21, und nicht

��(6)=21/21.


Ein visueller Vergleich der aus der Stichprobe geschätzten Überlebensfunktionen untermauert noch einmal die Schlussfolgerung, dass 6-MP die Remission gegenüber dem Placebo signifikant verlängert hat.


Exponentialverteilte Zufallsvariable bilden bei vielen praktischen Anwendungen der Überlebenszeitanalyse eine gängige Klasse von Ereigniszeiten. Die zufällige Natur exponentialverteilter Ereigniszeiten wird durch einen einzigen Parameter, λ, charakterisiert, dessen Kehrwert der erwarteten (also "mittleren") Ereigniszeit E(T) entspricht. Wegen der besonderen Gestalt ihrer Überlebensfunktion hängt bei einer exponentialverteilten Ereigniszeit die Wahrscheinlichkeit, nach einen Zeitpunkt t noch mindestens einen Zeitraum ∆t ereignisfrei zu überstehen, nur von ∆t ab, aber nicht von t selbst. Der Exponentialverteilung liegt somit die Vorstellung zugrunde, dass der Prozess, der zum Eintritt des interessierenden Ereignisses führt, "kein Gedächtnis hat".



Die Remissionsdauer nach Leukämie lässt sich offenbar nur unzureichend durch eine Exponentialverteilung beschreiben. In der Verum-Gruppe betrug die mittlere Remissionsdauer 17.1 Monate, woraus sich eine Schätzung von 1/17.1=0.058 für den Parameter λ ergibt. Die zugehörige Kurve weicht aber systematisch von der empirisch geschätzten Überlebensfunktion der Verum-Gruppe (dargestellt als Treppenfunktion) ab. Am Anfang fällt die Kurve zu stark, d.h. die Wahrscheinlichkeit für ein ereignisfreies Überstehen früher Zeitpunkte wird durch die Exponentialverteilung zu niedrig angesetzt. Zwischen 22 und 23 Monaten überschneiden sich Kurve und Treppenfunktion, d.h. von da an sind die theoretischen Überlebenswahrscheinlichkeiten höher als die empirisch geschätzten. Gleiches gilt für die Placebo-Gruppe.

Für diese mangelnde Übereinstimmung kann es mehrere Gründe geben. Zum einen haben exponentialverteilte Ereigniszeiten ja per Definition kein "Gedächtnis", was für viele biologische Prozesse eine unrealistische Annahme sein dürfte. Je länger ein verdeckter Krankheitszustand andauert, umso wahrscheinlicher ist es, dass er in einem anschließenden Zeitraum ∆t offen zu Tage tritt. Es gibt aber noch eine andere Erklärung, die wiederum mit der speziellen Art der Erhebung von Ereigniszeiten zu tun hat.


In unserem Leukämie-Beispiel haben wir bislang angenommen, dass für alle Patienten in der Stichprobe neben dem Zeitpunkt des Beginns (schwarzer Punkt) auch der Zeitpunkt des Endes der Remission (roter Punkt) genau bekannt war. Man spricht dann davon, dass die zugehörigen Beobachtungen der Ereigniszeit T "unzensiert" waren. Genau diese Annahme ist jedoch in wissenschaftlichen Studien von Ereigniszeiten in der Regel nicht erfüllt. Vielmehr wird das interessierende Ereignis bei einem Teil der Studienteilnehmer erst nach dem Ende der Studie eintreten, oder die Studienteilnehmer verlassen aus irgendeinem Grund (z.B. Wegzug) die Studie vor Eintritt des Ereignisses. Bezeichnet t den Zeitpunkt, an dem der Studienteilnehmer zum letzten Mal ereignisfrei beobachtet wurde, so weiß man von ihm lediglich, das die Ereigniszeit T größer als t gewesen ist (T>t). Der genaue Wert von T ist hingegen unbekannt. Eine solche Beobachtung bezeichnet man als "rechtszensiert". Rechtszensierung ist die häufigste Form der Zensierung in medizinischen Studien. Daneben gibt es noch "Linkszensierung" und "Intervallzensierung", die aber in der Medizin eine untergeordnete Rolle spielen.

(Rechts)Zensierungen sind der Grund, weshalb Ereigniszeiten mit vielen klassischen statistischen Verfahren nicht analysiert werden können. Zensierte Daten dürfen weder ignoriert noch als unzensierte Daten behandelt werden, da dies zu einer systematischen Unterschätzung der Ereigniszeiten führen würde. Eine Gleichbehandlung zensierter und unzensierter Beobachtungen würde zudem die Aussagekraft der Daten überbewerten. Daher bedarf die Überlebenszeitanalyse besonderer statistischer Methoden, um der Zensierung in geeigneter Weise Rechnung zu tragen.


Ein erheblicher Teil der Remissionsdaten in der Verum-Gruppe war in Wirklichkeit rechtszensiert, d.h. die Patienten waren aus irgendeinem Grund vor Relaps oder krankheitsgedingtem Tod aus der Studie ausgeschieden. Der Vergleich beider Behandlungsgruppen mit Hilfe eines Wilcoxon-Tests war also nicht zulässig, da dieser Test nur für unzensierte Daten valide ist (d.h. nur für unzensierte Daten entspricht der nominale p-Wert der wirklichen Signifikanz des Unterschieds der Verteilungen).


Die auf dieser Folie gezeigte Formel ist notwendig, um einen guten Schätzer der Überlebensfunktion aus teilweise rechtszensierten Daten zu entwickeln. Ein Beispiel für zwei absteigende Ereignisse lautet nämlich "die Remissionsdauer beträgt mindestens 10 Monate" (A) und "die Remissionsdauer beträgt mindestens 9 Monate" (B). Offensichtlich folgt für einen individuellen Patienten aus Ereignis A stets Ereignis B, da B eine notwendige Voraussetzung für A ist.


Die Überlebensfunktion der Verum-Gruppe kann unter Berücksichtigung der Rechtszensierungen (markiert durch Kreuze) durch Rekursion geschätzt werden. Wenn wir z.B. P(T>10) "gut" schätzen wollen, so scheint dies zunächst nicht möglich, da von den Ereigniszeiten, die im sechsten bzw. neunten Monat zensiert wurden, unklar ist, ob sie de facto größer als 10 Monate waren oder nicht. Daher tun wir zunächst so, als ob wir P(T>9) schon gut geschätzt hätten. Wenn nun auch noch P(T>10|T>9) gut zu schätzen wäre, dann würde die Formel für die bedingte Wahrscheinlichkeit absteigender Ereignisse mit

das gewünschte Ergebnis liefern. Auf diese Weise hätten wir das Schätzproblem von 10 auf 9 Monate verlagert. Diesen Trick wendet man rekursiv so lange an, bis man einen Zeitpunkt t erreicht, zu dem P(T>t) ganz leicht zu schätzen ist. In der Regel ist dies der Beginn der Studie, d.h. t=0. Man kann nämlich mit Fug und Recht annehmen, dass P(T>0)=1 gilt, d.h. dass kein Patient schon unmittelbar zum Behandlungszeitpunkt einen Relaps erleiden oder sterben würde.

Bleibt also zu klären, ob und wie P(T>10|T>9) gut geschätzt werden kann.

)9T|10T(P̂)9T(P̂)10T(P̂ >>⋅>=>


Die bedingte Wahrscheinlichkeit P(T>10|T>9) lässt sich in der Tat ohne Probleme aus den rechtszensierten Remissionsdaten schätzten. Wir dürfen uns dabei nämlich auf jene 15 Patienten der Verum-Gruppe beschränken, von denen wir sicher wissen, dass ihre Remission mindestens 9 Monate dauerte (d.h. die mindestens 10 Monate "unter Beobachtung" waren). Alle davor liegenden, rechtszensierten Beobachtungen können ignoriert werden, solange für die zugehörigen Patienten die gleiche Wahrscheinlichkeit P(T>10|T>9) angenommen werden kann, wie für alle anderen. Ob sie tatsächlich 9 Monate in Remission waren oder nicht, ist wegen der Zensierung zwar nicht bekannt. Entscheidend ist jedoch, dass die Möglichkeit dafür bestand und dass die Frage "ob" oder "ob nicht" nichts mit der Zensierung selbst zu tun hatte. Dies führt uns zu einer maßgeblichen Voraussetzung für die Anwendbarkeit des beschriebenen Schätzverfahrens: die Zensierung, aufgefasst als eigenständige Zufallsvariable, muss statistisch unabhängig von der Ereigniszeit T sein!

Ein häufiger Grund für die Verletzung der Unabhängigkeit zwischen Ereigniszeit und Zensierung in medizinischen Studien ist mangelnde Compliance. Während Patienten in schlechter Verfassung (d.h. solche mit vordringlich kurzen Ereigniszeiten) ihre Teilnahme oftmals wegen physischer Problem oder einfach aus Frustration über das Therapieversagen beenden, könnte solchen mit besonders guter Prognose (und daher vordringlich langen Ereigniszeiten) schlichtweg die Motivation zum Durchhalten abhanden kommen.


Die Schätzungen der bedingten Wahrscheinlichkeit P(T>t|T>t-1) weichen nur für solche Zeitpunkte von 1 ab, an denen mindestens ein Ereignis (Relaps oder Tod) beobachtet wurde. An Zeitpunkten, zu denen nur Zensierungen auftraten (z.B. t=11), reduziert sich zwar der Nenner für alle nachfolgenden Schätzungen um die Anzahl dieser Zensierungen. Da aber Patienten, deren Remissionsdauer zum Zeitpunkt t zensiert wurde, diesen Zeitpunkt definitionsgemäß in Remission überstanden haben, sind sie auch im Zähler der Schätzung von P(T>t|T>t-1) enthalten. Zu Zeitpunkten, an denen nur Zensierungen stattfanden, sind also Zähler und Nenner der Schätzung gleich.


Aus den Schätzungen der bedingten Wahrscheinlichkeiten P(T>t|T>t-1) und aus der Tatsache, dass P(T>0)=1 gilt, lässt sich durch schrittweise Wiederholung der Rekursion eine Schätzung der gesamten Überlebensfunktion konstruieren. So ergibt sich z.B. die Schätzung von P(T>7), also ��(T>7)=0.807, durch

Multiplikation von ��(T>6)=0.857 und ��(T>7|T>6)=0.941. Die Schätzung der Überlebensfunktion ändert sich nur an den Zeitpunkten, an denen ein Ereignis beobachtet wurde, da ja zu allen anderen Zeitpunkten ��(T>t|T>t-1)=1 gilt.


Das geschilderte Verfahren zur Schätzung einer Überlebensfunktion aus rechtszensierten Daten wird als "Kaplan-Meier-Schätzer" bezeichnet. Es entstammt einem klassischen Aufsatz zweier US-amerikanischer Statistiker, Paul Kaplan und Edward L. Meier, aus dem Jahr 1958 ("Non-parametric Estimation from Incomplete Observations", J. Am. Stat. Assoc. 53: 457–481). Diese Arbeit belegt noch immer Platz 2 auf der Liste der am häufigsten zitierten wissenschaftlichen Aufsätze aus Mathematik, Statistik und Computerwissenschaft. Die Autoren waren sich vorher nie persönlich begegnet und hatten ihre unabhängig von einander erzielten Resultate nur zufällig zur gleichen Zeit beim Journal der American Statistical Association zur Veröffentlichung eingereicht. Der Herausgeber ermutigte die beiden Autoren daraufhin, ein gemeinsames Manuskript zu erstellen und dem Journal vorzulegen.

In der abgebildeten Formel steht der griechische Großbuchstabe Π ("Pi") für die Produktbildung. Er hat damit eine ähnliche Funktion wie das große "Sigma" (Σ) bei der Summenbildung. Der Index "ti≤t" gibt an, das die Quotienten (ni-di)/ni

für all jene Beobachtungszeitpunkte ti aufmultipliziert werden sollen, die vor dem Zeitpunkt t lagen. Ist zum Zeitpunkt t auch mindestens eine unzensierte Beobachtung gemacht worden, so gehört t ebenfalls zu der Liste der ti. Die Quotienten (ni-di)/ni entsprechen (jeweils für t=ti) genau den auf der vorhergehenden Folie ermittelten Schätzungen der bedingten Wahrscheinlichkeiten P(T>t|T>t-1).


Die graphische Darstellung einer Kaplan-Meier-Schätzung wird als "Kaplan-Meier-Kurve" bezeichnet. Sie hat ihre Sprungstellen nur an den Zeitpunkten unzensierter Beobachtungen und verläuft dazwischen horizontal. Zensierungen werden oftmals durch vertikale Striche auf der Kaplan-Meier-Kurve markiert.

Durch die Zensierungen verschiebt sich der geschätzte Median der Remissionsdauer in der Verum-Gruppe von 16 auf 23 Monate. Allerdings unterschreitet die Kaplan-Meier-Kurve den Wert 0.5 nur knapp, da es in der Stichprobe keine unzensierten Beobachtungen nach dem 23. Monat gibt. Aus diesem Grund ist die Schätzung des Medians auch mit einer erheblichen Unsicherheit behaftet. Sind in einer Stichprobe zu wenig unzensierte Beobachtungen enthalten, so kann es sogar geschehen, dass der Median gar nicht definiert ist, d.h. die Kaplan-Meier-Kurve verläuft gänzlich oberhalb des Wertes 0.5. In solchen Fällen müssen andere Quantile als Lagemaße der Stichprobe dienen. Die Berechnung eines Mittelwerts der Überlebenszeit macht in der Regel nur dann Sinn, wenn die Kaplan-Meier-Kurve (annähernd) die Null erreicht.



Angesichts des augenfälligen Unterschieds zwischen den Kaplan-Meier-Kurven der Remissionsdauer in Verum- und Placebo-Gruppe stellt sich die Frage, ob dieser Unterschied auch statistisch signifikant ist. Um diese Frage zu beantworten, betrachten wir alle Zeitpunkte ti mit einer unzensierten Beobachtung in mindestens einer der beiden Gruppen. Die jeweilige Anzahl von Patienten unter Beobachtung zum Zeitpunkt ti bezeichnen wir mit nX,i bzw. nY,i

und die Anzahl der unzensierten Beobachtungen mit dX,i bzw. dY,i. Hierbei steht X für die Verum-Gruppe und Y für die Placebo-Gruppe.

Unter der Null-Hypothese (H0), dass die Überlebensfunktionen beider Gruppen gleich sind, wäre zu erwarten, dass sich die unzensierten Beobachtungen zu jedem Zeitpunkt ti proportional zur Anzahl der noch unter Beobachtung stehenden Patienten auf die beiden Gruppen verteilen. So beträgt z.B. das Verhältnis von nX,i und nY,i nach 5 Monaten 21:14, d.h. 3:2. Insgesamt wurden zum Zeitpunkt ti=5 zwei unzensierte Beobachtungen gemacht. Unter H0 sollten demnach dX,i und dY,i das gleiche Verhältnis wie nX,i und nY,i aufweisen, so dass die erwarteten Beobachtungszahlen eX,i=2⋅3/5=1.2 und eY,i=2⋅2/5=0.8 betragen.

Durch Summation über alle Beobachtungszeitpunkte erhält man die jeweils beobachtete bzw. erwartete Gesamtzahl unzensierter Beobachtungen in den beiden Gruppen (dx und dy bzw. ex und ey). Die Frage nach der Signifikanz einer Abweichung zwischen beobachteten und erwarteten Werten, und somit nach dem Grad der Evidenz gegen H0, wird durch einen χ2-Test beantwortet.


Die Bezeichnung "Log-Rank" rührt daher, dass es sich bei dem hier beschriebenen Test um einen Spezialfall einer ganzen Klasse statistischer Tests handelt, die auf den Logarithmen der Ränge von Daten basieren. Der Log-Rank-Test ist optimal bezüglich seiner Power, wenn die beiden zu vergleichenden Überlebensfunktionen die Bedingung

für alle t>0 und für ein bestimmtes α>0 erfüllen. In diesem Fall ist die Nullhypothese übrigens gleichbedeutend mit α=1. Die Power des Log-Rank-Tests ist besonders gering, wenn sich SX und SY kreuzen.

[ ]α)t(S)t(S YX =


Die Überlebensfunktionen der Remissionsdauer unterscheiden sich hochsignifikant zwischen Verum- und Placebo-Gruppe. Interessanterweise ist der p-Wert des Log-Rank-Tests sogar 50 mal kleiner als der des fälschlicherweise angewandten Wilcoxon-Tests. Das bedeutet, dass die Daten trotz des Informationsverlusts aufgrund der Zensierungen noch deutlicher gegen die Nullhypothese sprechen, als wenn es sich bei allen zensierten Beobachtung um tatsächliche Ereigniszeiten gehandelt hätte.


Der Legende nach war Damokles ein Höfling des Tyrannen Dionysios von Syrakus (ca. 430 v. Chr. bis 367 v. Chr). Er soll mit seinem Leben unzufrieden gewesen sein und beneidete den Tyrannen um dessen Macht und Reichtum. Dionysios beschloss daher, Damokles anhand des sprichwörtlichen Damoklesschwerts seine Vergänglichkeit zu verdeutlichen. Bei einem Festmahl bot er ihm an, an der königlichen Tafel zu sitzen. Zuvor ließ er jedoch über seinem Platz ein Schwert aufhängen, das nur von einem Rosshaar gehalten wurde. Als Damokles das Schwert über seinem Kopf bemerkte, konnte er den dargebotenen Luxus nicht mehr genießen und bat schließlich, auf die Annehmlichkeiten (und die damit verbundene Bedrohung) verzichten zu dürfen.

Die Analogie zwischen Überlebenszeitanalyse und Damoklesschwert besteht darin, dass bei ersterer die Beobachtungsobjekte ebenfalls einer ständigen Bedrohung durch das interessierende Ereignis (z.B. Tod oder Relaps) ausgesetzt sind.


Die Hazardfunktion h(t) misst die akute "Bedrohung" der Beobachtungsobjekte zum Zeitpunkt t. Sie ist formal als Grenzwert einer Folge von Eintrittswahrscheinlichkeit bezogen auf eine immer kleiner werdende Zeiteinheit definiert und wird deshalb auch als "Eintrittsrate" (englisch: "hazard rate") oder "Sterberate" bezeichnet.

Aus der speziellen Gestalt der Exponentialverteilung ergibt sich, dass die Eintrittsrate einer exponentialverteilten Ereigniszeit konstant ist. Sie entspricht zu jedem Zeitpunkt dem Inversen der mittleren Ereigniszeit E(T). Die Überlebenszeit des Damokles dürfte daher nicht exponentialverteilt gewesen sein, weil anzunehmen ist, dass die Bedrohung durch Ermüdung des Pferdehaares mit fortschreitender Zeit immer größer wurde, d.h. dass h(t) eine monoton wachsende Funktion von t war.


Benjamin Gompertz (geboren am 5. März 1779 in London, gestorben am 14. Juli 1865 in London) war ein mathematischer Autodidakt, der es dennoch zu einer Mitgliedschaft in der Royal Society gebracht hat. In den zwanziger Jahren des 19. Jahrhunderts begann Gompertz, sich für die statistischen Charakteristika der menschlichen Mortalität zu interessieren. Er untersuchte dabei, wie man die Wahrscheinlichkeit, dass eine Person ein gewisses Alter erreicht, wenn ihr nichts Unerwartetes zustößt, in eine mathematische Funktion kleiden könne.

Gompertz stellte auf der Grundlage empirischer Daten aus verschiedenen Regionen Englands fest, dass die Sterberate ab einem gewissen Alter exponentiell mit dem Alter wächst. Das gleiche Phänomen zeigt sich auch im 21. Jahrhundert, wie eine Betrachtung der deutschen Sterbetafel von 2010 belegt. Etwa ab dem 20. Lebensjahr folgt die Sterberate auf der logarithmischen Skala nahezu perfekt einer Geraden, d.h. die Sterberate verläuft dort exponentiell. Wie nicht anders zu erwarten, liegt die Sterberate der Männer oberhalb der der Frauen. Die Geraden gleichen sich einander aber mit zunehmendem Alter an. Der Abbildung ist auch zu entnehmen, dass die Sterberate unmittelbar nach der Geburt vergleichsweise hoch ist und danach bis etwa zur Pubertät sinkt. Die auffällige Zacke bei Männern zwischen dem 15. und 20. Lebensjahr reflektiert wohl das in diesem Lebensabschnitt recht populäre Lebensmotto "no risk, no fun".



Die empirische Überlebensfunktion der Remissionsdauer in der Placebo-Gruppe wird nur ungenügend durch eine Exponentialverteilung angenähert. Dies ist nicht weiter verwunderlich, da die Annahme einer konstanten Hazardfunktion für einen Relaps aus biologischer Sicht nicht besonders sinnvoll ist. Bevor unreife Zellen im Blutbild eines Leukämiepatienten erneut nachgewiesen werden können, muss das Krankheitsgeschehen bereits relativ weit fortgeschritten sein. Daher kann insbesondere bei Fehlen einer zusätzlichen Zytostatikatherapie mit Andauern der Remission eher von einem Anstieg der Eintrittsrate ausgegangen werden kann.

Diese Einschätzung wird auch formal durch die offensichtlich bessere Annäherung der empirischen Überlebensfunktion der Placebo-Gruppe an eine Gompertz-Verteilung unterstützt. Allerdings sind Gompertz-Verteilungen definitionsgemäß auf Ereigniszeiten mit ansteigenden Eintrittsraten beschränkt. Ihre Verwendung ist daher in Situationen, in denen die Eintrittsrate mit der Zeit nicht steigt sondern sinkt, nicht sinnvoll. Dies gilt nicht nur für Maschinen, die sich unter Umständen erst "warm laufen" müssen, bevor sie dauerhaft gut funktionieren, sondern auch für die menschliche Sterberate, die bis zur Pubertät ebenfalls einen abnehmenden zeitlichen Verlauf aufweist. Ein höhere Flexibilität bietet in dieser Hinsicht die nach dem schwedischen Ingenieur und Mathematiker Waloddi Weibull (1887-1979) benannte Weibull-Verteilung.


Die Weibull-Verteilung hat zwei Parameter, γ>0 und λ>0. Sie wird auch als "verallgemeinerte Exponentialverteilung" bezeichnet. In der Tat ist die Exponentialverteilung nur ein Spezialfall der Weibull-Verteilung, und zwar für γ=1. Wenn γ<1 gilt, so fällt die Eintrittsrate mit der Zeit, und gegenüber der Exponentialverteilung erscheint die Weibull-Verteilung daher zeitlich gestreckt (blaue Linien). Ist γ>1, so steigt die Eintrittsrate mit der Zeit und die Verteilung erscheint gestaucht (rote Linien).


Für die statistische Modellbildung im Rahmen von Überlebenszeitanalysen gibt es eine Reihe von Ansätzen. Besonders elegant und populär ist das Verfahren, dass 1972 erstmals von dem britischen Mathematiker David Roxbee Cox in einem Aufsatz im Journal der Royal Statistical Society beschrieben wurde. Cox war 22 Jahre lang Professor am Imperial College in London, bevor er 1988 an das Nuffield College in Oxford wechselte. Er hat für sein Lebenswerk eine Vielzahl von Würdigungen und Auszeichnungen bekommen, einschließlich des Ritterschlags durch Queen Elizabeth II im Jahre 1985.

Die "Cox-Regression" basiert auf der Idee, die Hazardfunktion in Abhängigkeit von der Zeit t und den Einflussgrößen X1 bis Xk so zu modellieren, dass sich die Wirkung der Einflussgrößen auf die Ereigniszeit anhand einer Stichprobe quantifizieren lässt, ohne die genaue Gestalt der Hazardfunktion bzw. der Überlebensfunktion zu kennen. Dann müsste sich ein Wissenschaftler gar keine Gedanken mehr darüber machen, ob er z.B. eine Gompertz-Verteilung oder besser eine Weibull-Verteilung an seine Daten anpassen soll.



Die Überlebensfunktionen der dänischen Stichprobe weisen einen signifikanten Geschlechtsunterschied auf. Die Prognose weiblicher Patienten ist offensichtlich signifikant besser als die von Männern.


Ein interessanter Aspekt der dänischen Studie ist die Frage, ob die Größe des operativ entfernten Tumors einen Einfluss auf die Überlebenszeit hatte. Bei der Beantwortung dieser Frage wäre zu bedenken, dass die durchschnittliche Tumorgröße der weiblichen Patienten mit 2.5 mm signifikant geringer war als die der Männer mit 3.6 mm. Der Wilcoxon-Test lieferte für diesen Unterschied einen p-Wert von 0.0042. Da andererseits auch die Überlebensfunktionen von Männern und Frauen signifikant verschieden waren, könnte das Geschlecht des Patienten als Confounder des Zusammenhangs zwischen Tumorgröße und Überlebenszeit wirken. Daher wäre es ratsam, diesen Zusammenhang mithilfe einer statistischen Modellbildung unter Einbeziehung des Geschlechts als Störgröße zu analysieren. Auf diese Weise ließe sich auch der Einfluss des Alters und des Vorliegens eines Ulcus auf die Überlebenszeit geeignet berücksichtigen.


Die Hazard-Ratio ähnelt nicht ohne Grund dem relativen Risiko, da beide Morbiditätsmaße die "Bedrohung" durch ein bestimmtes Ereignis zwischen zwei Gruppen ins Verhältnis zueinander setzen. Während es beim relativen Risiko jedoch um die Eintrittswahrscheinlichkeiten (meistens einer Erkrankung) in einem bestimmten Zeitraum ging, vergleicht die Hazard-Ratio Eintrittsraten zu einem bestimmten Zeitpunkt.

Auch die Hazardfunktion selbst ist als Grenzwert eines zeitskalierten Risikos definiert, nämlich durch

Unter gewissen Umständen bezüglich des "Wohlverhaltens" der Hazardfunktionen he und hn kann in der Definition der Hazard-Ratio die Bildung des Quotienten he(t)/hn(t) und die Bildung der Grenzwerte ∆t→0 vertauscht werden. Die Hazard-Ratio zum Zeitpunkt t lässt sich daher auch als Grenzwert des relativen Risikos für immer kürzer werdende, in der Zukunft liegende Zeiträume ∆t interpretieren. Gilt also zu einem Zeitpunkt t z.B. HR(t)=5, so nähert das sich das relative Risiko für jeden Folgezeitraum dem Wert 5 an, wenn dieser Zeitraum (gedanklich) gegen Null schrumpft.

t)tT|ttTt(P

lim)t(h0t ∆

>∆+≤<=→∆


Ähnlich wie bei der logistischen Regression besteht auch bei der Cox-Regression ein Zusammenhang zwischen dem Regressionskoeffizienten b1 einer dichotomen Einflussgröße X1 und einem gängigen Morbiditätsmaß, in diesem Fall jedoch nicht der Odds-Ratio, sondern der Hazard-Ratio. Der Beweis hierfür ist denkbar einfach:

)]t(hln[)]t(hln[)t(h)t(h

ln)]t(HRln[ nen

e −=

=

]xb...0b)t([xb...1b)t( kk1kk1 ⋅++⋅+−⋅++⋅+= αα

1b=


Aus der besonderen Gestalt der Modellgleichung der Cox-Regression ergibt sich durch einfache Umkehrung der Logarithmierung, dass die Hazardfunktion in das Produkt zweier Faktoren zerfällt, nämlich exp[α(t)] und exp[b1x1+...+bkxk], von denen der erste nur von der Zeit t und der zweite nur von den Einflussgrößen X1

bis Xk abhängt. Für zwei verschiedene Kombinationen x1,a,...,xk,a und x1,b,...,xk,b

von Ausprägungen der Einflussgrößen ist also der Quotient der Hazardfunktionenzeitlich konstant, d.h. die relative "Bedrohung" zu einem bestimmten Zeitpunkt hängt nur von den Einflussgrößen, aber nicht vom Zeitpunkt selbst ab. Der zeitabhängige Teil der Hazardfunktionen in Zähler und Nenner ist für alle Zeitpunkte identisch und kürzt sich dementsprechend aus dem Quotienten heraus. Aus diesem Grund wird das Modell der Cox-Regression im Englischen als "proportional hazards model" bezeichnet.


Alle vier Regressionskoeffizienten sind positiv, was bedeutet, dass das Vorliegen eines Ulcus, ein größerer Tumor, ein fortgeschrittenes Alter und das männliche Geschlecht (dass durch 1 kodiert wurde) die Sterberate zu einem festen Zeitpunkt möglicherweise erhöhen.

Das Alter erweist sich in der Cox-Regressionanalyse als am wenigsten relevante Einflussgröße in dem Sinne, dass der zugehörige p-Wert maximal ist. Da gleichzeitig der p-Wert über der Signifikanzgrenze von 0.05 liegt, wird das Alter im Zuge der Rückwärtsselektion aus dem Modell entfernt.


Da der p-Wert für das Geschlecht auch im reduzierten Modell 0.05 überschreitet, wird diese Einflussgröße im nächsten Schritt der Rückwärtsselektion ebenfalls aus dem Modell entfernt.


Die p-Werte beider verbliebener Einflussgrößen implizieren einen hochsignifikanten Einfluss auf die Überlebenszeit. Sie sind daher Bestandteile des endgültigen Modells.

Die Hazard-Ratios sind so zu interpretieren, dass ein Patient mit einem Ulcus zu jedem Zeitpunkt einer 3.38-fach höheren Bedrohung durch den Tod ausgesetzt ist als ein Patient ohne Ulcus. Zudem nimmt die relative Bedrohung mit jedem zusätzlichen Millimeter Tumorgröße um den Faktor 1.12 zu.



Date post:	07-Aug-2019
Category:	Documents
Upload:	vodieu
View:	212 times
Download:	0 times

Den Box-Plots ist zu entnehmen, dass der Median der ... · Behandlungsgruppen mit Hilfe eines...

Documents