Date post: | 06-Apr-2016 |
Category: |
Documents |
Upload: | hartmut-manfred-armbruster |
View: | 213 times |
Download: | 0 times |
„Seminar: Statistische Analyse zur Wirkung von Luftschadstoffen“
Fallstudie in den USA zum Thema Luftschadstoffe
Antonia Zapf, am 22.November 2004Dozenten: Prof. Dr. Küchenhoff, PD Dr. Peters
22.11.2004 A. Zapf 2
Schätzung von Luftschadstoff-bedingter Mortalität und Grenzwert-Level: Eine Zeitreihenanalyse der 20 größten US-Städte
Autoren: Michael J. Daniels, Francesca Dominici, Jonathan M. Samet, und Scott L. Zeger (2000)
22.11.2004 A. Zapf 3
Gliederung:
Einleitung Daten Modelle Schätzungen Ergebnisse Diskussion Literaturverzeichnis
22.11.2004 A. Zapf 4
Einleitung Vermutung: Anstieg der Mortalität bei
Luftverschmutzung unterhalb des Grenzwertes von (US National Ambient Air Quality Standard, 150 μm/ als 24-Stunden-Durchschnitt)
Einführung von Modellen um den Zusammenhang darzustellen
Anwendung auf die Daten
PM10
m3
22.11.2004 A. Zapf 5
Einleitung (Modelle):Drei plausible Modelle für den Zusammenhang von logarithmierter Mortalität und -Konzentration
Modell 1: lineares Modell ohne Grenzwert Modell 2: Spline dose-response Modell
(log(Mortalität) Glättungs-Funktion von ) Modell 3: Grenzwert-Modell
(Annahme: kein Zusammenhang unterhalb des Grenzwertes, linearer Zusammenhang oberhalb)
PM10
PM10
22.11.2004 A. Zapf 6
Einleitung (Ziele): Ziel 1: Vereinigung der Informationen der 20
Städte um die Form der durchschnittlichen dose-response Kurve zu präzisieren;
Ziel 2: Testen der Hypothese, dass der Zusammenhang zwischen Luftver-schmutzung und Mortalität annährend linear ist;
Ziel 3: Identifikation möglicher Grenzwerte, unterhalb derer keine Auswirkung der Luftverschmutzung auf die Mortalität nachgewiesen werden kann
22.11.2004 A. Zapf 7
Daten:
Mortalität, Wetter und Luftverschmutzung für die 20 größten US-Städte von 1987-1994
Datensatz eine größeren Projekts (Morbidität, Mortalität,
Luftverschmutzung
22.11.2004 A. Zapf 8
Die Daten
22.11.2004 A. Zapf 9
Daten (Luftschadstoffe)
Daten vom Aerometrik-Informations-Retrieval-System
an manchen Orten viele fehlende Werte für, da nur alle sechs Tage gemessen
bei mehr als einer Messstation pro Stadt wurde der Jahresdurchschnitt für jede Messstation korrigiert, und dann das um 10% gestutzte Mittel über alle Messreihen verwendet( Schutz vor Ausreißern)
PM10
22.11.2004 A. Zapf 10
Daten (Mortalität) Daten vom National Center for Health Statistics Tod durch äußere Umstände ausgeschlossen nach Altersgruppen klassifiziert:
<65, 65-74, >=75 Jahre nach Todesursache klassifiziert:
kardiale, respiratorische Erkrankungen, Grippe und Lungenentzündung (=kardiovaskuläre und respiratorische Ursachen)andere übrige Krankheiten (=andere Ursachen)
chronisches obstruktives Asthma und damit zusammenhängende Störungen eingeschlossen
22.11.2004 A. Zapf 11
Daten (Wetter)
Daten vom EarthInfo Datensatz stündliche Temperatur und Feuchtigkeit 24-Stunden-Durchschnitt bei mehr als einer Wetterstation pro Stadt
wurde das Mittel aller Stationen verwendet
22.11.2004 A. Zapf 12
Modell 1 log-lineares Poissonmodell zur Schätzung des
relativen Anteils von Luftverschmutzung/ Mortalität für jeden Ort getrennt (generalisiertes additives Modell mit log link und Poisson-Fehler)
Y|X-Po()
Confounder: Altersspezifische Langzeittendenzen (z.B. Neuerungen in der Medizin), Wetter, Wochentag
E(Y) exp(0 1x1 ... p x p )
E(Y x1 ,...,x p 1 ,x p )
E(Y x1 ,...,x p 1 ,x p 1) exp(... p S...)
exp(... p (S1)...) exp( p )
22.11.2004 A. Zapf 13
Modell 1 : beobachtete Mortalität für jede
Altersgruppe a : Mittelwert von am Tag t und t-1
: erwartete Anzahl vonTodesfällen am Tag t
confounder β : log-relative Rate von Mortalität und
Anstieg von um eine Einheit Sensitivitätsanalyse: Rechnung mit der
-Konzentration vom aktuellen Tag und vom Vortag einzeln
yat
PM10
PM10t
uat E(Yat )
log(uat ) PM10t
PM10
PM10
22.11.2004 A. Zapf 14
Modell 1 mögliche Confounder von β: z.B. Änderungen im
Gesundheitswesen, saisonbedingte Ursachen oder Grippe-Epidemien
Kontrolle dieser Confounder und Berücksichtigung von zeitlichen Korrelationen in den Zeitreihen durch Beachtung kurzzeitiger Schwankungen bei Mortalität
Schwankungen der Mortalität heraus-partialisiert durch Hereinnahme von Glättungs-Splines über die Kalenderzeit S(time, df) für jede Stadt
df= Anzahl der freien Parameter, nicht datengesteuert
22.11.2004 A. Zapf 15
Modell 1
df = 7 pro Jahr, vordefinierter GlättungsparameterBeseitigung von Confoundern wie saisonale Grippe-Epidemien und längerfristige Tendenzen (z.B. Änderung in der medizinischen Praxis und im Gesundheitswesen)
22.11.2004 A. Zapf 16
Modell 1 Kontrolle von altersspezifischen
langfristigen und saisonalen Schwankungen durch eigene Glättungsfunktion für die Zeit mit 8 df über alle Jahre für jede Altersgruppe
Kontrolle vom Wetter durch Glättungsfunktionen für Temperatur
und mit jeweils 6 df, und für Feuchtigkeit und
mit jeweils 3 df
temp0
temp_0 = Temp. Am selben Tag, temp_1-3= durchschn. Temp. Der drei vorherigen Tage
temp1 3
dew0
dew1 3
22.11.2004 A. Zapf 17
Endmodell 1 Gefittetes log-lineares generalisiertes
additives Modell, um die geschätzte log-relative Rate und die Devianz V( ) für jeden Ort zu erhalten
intercept for age group a + seperate smooth functions of time (8 df) for age group a = + confounder
DOW = Indikatorvariable für day of week
ˆ
ˆ
logat PM10t DOW S1(time,7 / year)S2(temp0,6) S3(temp1 3,6) S4 (dew0,3)S5(dew1 3,3)
PM10t
22.11.2004 A. Zapf 18
Ergebnisse vom Modell 1
22.11.2004 A. Zapf 19
Modell 2 Untersuchung der log-linearen Annahme für Modell
(1)Spline dose-response Modell
Mortalität als Glättungsfunktion von S( ,λ) λ : Freiheitsgrade der Glattheit der dose-response
Kurve Annährung durch Beschränkung der
Glättungsfunktion auf die natürlichen kubischen Splines mit einer festen Anzahl von Knotenkubische Polynome (Polynome 3.Grades), 1. und 2. Ableitung der Splines muss an den Knoten gleich sein
PM10
22.11.2004 A. Zapf 20
Modell 2
Spline dose-response Modell:
Natürlicher kubischer Spline mit Knoten bei 30 und 60 g/ (ca 25 und 75% Quantile)
logat S(PM10t ,knots c(30,60)) confounder
m3
22.11.2004 A. Zapf 21
Modell 3 Frage: Mortalitäts-Effekte unwesentlich unter
einem Wert?Grenzwert-Modell:
= x wenn und = 0 wenn x<0 d.h. wenn , 0 sonst h unbekannt, aus den Daten geschätzt ( im Modell 1 misst den prozentualen
Anstieg der Mortalität per 10-μm/ -Schritte, wenn höher als h ist)
logat (PM10t h) confounder
x
x 0
x
PM10t h
PM10t h
m3
PM10t
22.11.2004 A. Zapf 22
Schätzung (Stadt-spez. Parameter)
Mit gam() in Splus Anpassung der Modelle 1 und 2 um Stadt-spezifische Schätzungen und Standardfehler des linearen Effektes und des Parameter-Vektors zu erhalten
= Stadt-spezifischer Parameter zur Messung der Auswirkung von auf die Mortalität (für Modell 1 und 2, c=1,…,20)
c
PM10
22.11.2004 A. Zapf 23
Schätzung Für das lineare Modell (1) ist , und für das dose-
response-Modell (2) ist gleich dem Koeffizienten-Vektor, entsprechend den Splines
Kombination der Koeffizienten über die Städte Test auf Heterogenität (mit statistischer Generalisierung)
Unter der Nullhypothese (keine Heterogenität) ist chi-quadrat-verteilt mit Freiheitsgraden (M1: 19, M2: 95)
c
c c
X 2 ( ˆ c )T Vc 1( ˆ c )
c
( Vc 1
c ) 1 Vc
1cc
X 2
20 dim(c ) dim(c )
22.11.2004 A. Zapf 24
Schätzung (Annahme der Nullh. ) = 0 wenn , wenn also die Städte-
spezifischen Schätzer gleich dem Gesamtmittel sind
Unter Annahme der Nullhypothese: Kombination der Städte-spezifischen Schätzungen durch ein fixed-effects Modell mit den Gewichten
Schätzer: ,mit der Varianz
Varianz ist Gewicht, wenn Varianz groß -> Variable weniger gewichtet, wenn Varianz klein -> Variable mehr gewichtet
ˆ c
X 2
Wc Vc 1
( Wcc ) 1 Wcc
c
V () ( Wcc ) 1
22.11.2004 A. Zapf 25
Schätzung (Annahme der Alternativh.)
Unter Annahme der Alternativ-Hypothese: Anpassung eines zweistufigen bayesianischen hierarchischen Modells
mit flachen priori auf (Gesamt-Koeffizienten-Vektor) und D (Zwischen-Städte-Kovarianz-Matrix)
Hierarchisch: Schätzer wird in einem nächsten Modell eingesetzt
22.11.2004 A. Zapf 26
Schätzung Gewichte: Weil in Modell (3) angenommen wird, dass
der Grenzwert h unbekannt istSchätzung von h und für jede Stadt durch folgende Methode:
Wc (DVc ) 1
22.11.2004 A. Zapf 27
Schätzung (des Grenzwertes) Gittersuche mit möglichen Grenzwerten
(h=5-200μm/ , Schrittweite 5μm/ ) Modell 3 mithilfe der gam-Funktion für jede Stadt anwenden ML-Schätzer von θ, abhängig von h Für jede Stadt Gitter nach dem durchsuchen, das die
likelihood minimiert Keine Vereinigung der Koeffizienten über die Städte für
Modell (3), weil die Koeffizienten für verschiedene h verschieden interpretiert werden können
m3
m3
l( ˆ (h),h)
ˆ (h)
ˆ c
ˆ ˆ ( ˆ h )
ˆ h
22.11.2004 A. Zapf 28
Schätzung Keine Kovarianzmatrix oder
Standardfehler für die Grenzwerte berechnet (für die meisten Städte ziemlich instabil)
Keine Fisher-Informations-Matrix Um den Schätzer des Gesamt-Grenzwertes
zu finden, wurde so gewählt, dass die Standardabweichung minimal, bzw. die log-likelihood maximal wird
ˆ h
22.11.2004 A. Zapf 29
Schätzung (vom Gesamtgrenzwert)
sind Städte-spezifische Devianz und log-likelihood
h im Bereich 0,5,10,...,75g/ ] 75g/ höchster Wert, für den alle
Parameter für das Grenzwert-Modell gegeben waren
h= 0, linearer Fall als Spezialfall
ˆ h arg minh
Dev(h)
Dev(h) Devc (h) 2 lc (h)c
c
Devc (h) und lc (h)
m3
m3
22.11.2004 A. Zapf 30
Schätzung (des Unsicherheitsmaßes) Unsicherheits-Maß für den Grenzwert
mit den a-posteriori-Wkten:
95%-HPD-Intervall:
wh Po(h i /Daten) l(Daten /h i)Pr(h i)
l(Daten /h i)Pr(h i) exp( 0.5Dev(h))
exp( 0.5Dev(h))hH
; für h 0,...,75, Pr(h = i) =1/16
U
L
hh
hh hUL whh 95.0:,
22.11.2004 A. Zapf 31
Schätzung Gewicht kann als approximative posteriori-
Wahrscheinlichkeit des Modells interpretiert werden Vergleich der Modelle innerhalb der Städte und
über alle Städte (beste Anpassung der Daten) mit Akaike information criterion, AIC=deviance + 2(number of parameters)
Beim Vergleich Grenzwert-Modell / lineares Modell ist h=0 ausgeschlossen
Zur Schätzung des Gesamt-Grenzwertes ist h=0 eingeschlossen
wh
Mh
Modell mit geringerem AIC wird bevorzugt
22.11.2004 A. Zapf 32
Ergebnisse
22.11.2004 A. Zapf 33
Ergebnisse
22.11.2004 A. Zapf 34
Ergebnisse
22.11.2004 A. Zapf 35
Ergebnisse
22.11.2004 A. Zapf 36
Ergebnisse
22.11.2004 A. Zapf 37
Ergebnisse
22.11.2004 A. Zapf 38
Diskussion Ziel der Untersuchungen (dieser und anderer) ist
die Minimierung des Risikos für die öffentliche Gesundheit
Schadstoff-Konzentrationen sind noch nicht unter Grenzwerten wo sie keine Auswirkungen mehr haben (falls es solche Grenzwerte gibt)
Dose-response-Analysen bisher nur innerhalb einzelner Orte begrenzte Vergleichsmöglichkeit von Modellen
Bisher oft Methoden benutzt, die nicht mehr für optimal gehalten werden
22.11.2004 A. Zapf 39
Diskussion Hier Vergleich von linearem Modell und
Spline dose-response-Modell bzw. Grenzwert-Modell
In 20 größten US-Städten besser verallgemeinerbar
Methode angebracht um die Unsicherheit vom geschätzten Grenzwert zu prüfen
Auch vorher schon stückweise Polynome und kubische Splines verwendet, aber Daten auf einzelne Orte begrenzt
22.11.2004 A. Zapf 40
Diskussion Für gesamte und kardiovaskuläre/
respiratorische Todesursachen kein Grenzwert erkennbar unter dem die Auswirkungen klein sind, bei anderen Todesursachen schon
Geschätzte Grenzwert -Level für andere Ursachen niedriger als für totale und kardio-respiratorische Ursachen (65µg/ bzw. 15µg/ )
Modell-Vergleiche (auf AIC basierend) wählen immer das log-lineare Modell, nur bei „andere Ursachen“ das Grenzwert-Modell
PM10
m3
m3
22.11.2004 A. Zapf 41
DiskussionEinschränkungen:
schlechte Informationslage für manchen Städte zu Modell (2) hinzufügen,
= Städte-spezifischer Grenzwert, Gesamtgrenzwert, Variabilität der Grenzwerte zwischen den Orten
feste Knoten Aber bei vernünftigen Punkten fixiert, und genügende
Flexibilität Methoden entwickeln um Anzahl und Lokalisation der
Knoten zu schätzen
log(h c ) ~ N(log(h), 2)
h c,h, 2
22.11.2004 A. Zapf 42
DiskussionResultate:
Risikofreie Levels von wahrscheinlich niedriger als der National Ambient Air Quality Standards
Ergebnisse deuten darauf hin, dass lineare Modelle ohne Grenzwert geeignet sind die Auswirkung von Luftverschmutzung auf die tägliche Mortalität einzuschätzen
PM10
22.11.2004 A. Zapf 43
Literatur: Daniels et al. Estimating Particulate
Matter-Mortality Dose-Response Curves and Threshold Levels: An Analysis of Daily Time-Series for the 20 Largest Us Cities, AjE 2000
Rüger, Test- und Schätztheorie, Band I, Oldenbourg 1999
Küchenhoff, Skript zur Vorlesung Lineare Modelle, WS 04/05