Date post: | 18-Sep-2018 |
Category: |
Documents |
Upload: | truongthuan |
View: | 219 times |
Download: | 0 times |
Agenda
Yvette Teiken, Martin Rohde
2
25.11.2010
Pause (15 Minuten)
� CARESS Überblick (30 Minuten)
� Architektur, Historie, Konzepte
� CARESS Demo - Die alte Version (15 Minuten)
� Beispiele für die Definition von Untersuchungsregionen, Räumliche Auswertungen
� Beispiele für die Gesundheitsberichterstattung
� CARESS Demo - Die neuen Version (20 Minuten)
� Ad-Hoc-Datenanalysen
� Überlebenszeitanalyse als Beispiel für R Anbindung
� CARESS Neue Version - Stand und Planung (5 Minuten)
� Forschung & Entwicklung und Raum für Diskussionen (60 Minuten)
� Aktuelle CARESS Entwicklungen: Statistik, Facettenklassifikation, Verzerrte Karten, …
� Aktuelle CARESS Forschungsthemen: AutoMais, Visuelle Analyse
CARESS - CARLOS Epidemiological and Statistical Data Analysis Engine
3
25.11.2010
CARESS Ziele
� Ziel: Umfangreiche Analyseunterstützung
� Ad-Hoc-Anfragen
� Explorativen Datenanalysen
� Qualitätssicherung
� Monitoring
� Gesundheitsberichterstattung
� Bsp. Entdeckung von Einflussfaktoren auf Erkrankungen
� Ziel: Analytisches Informationssystem für Krebsepidemiologie
� Integrierter Datenbestände
� Flexible Aggregation der Daten
� Analyse mit Hilfe komplexer statistischer Verfahren
� Analyse unter Berücksichtigung des Raumbezugs
Analyseszenarien in Epidemiologischen Krebsregistern
Yvette Teiken, Martin Rohde
Analytische Anwendungen und Verfahren
Organisato-risches und Rechtliches
Infrastruktur für Daten und Informations-logistik
Wissen
Information
Daten
4
25.11.2010
CARESS Lösungsansatz
� Integration verschiedener Daten
� Datentransformation, Datenqualitätsmanagement
� Fälle, Melder, Soziodemografische und Umweltdaten
� Integration verschiedener Datenanalysetechniken
� OLAP (Online Analytical Processing)
� Fast Analysis of Shared Multidimensional Information
� Statistik
� Epidemiologische & räumlich-statistische Verfahren
� Explorative Datenanalyse
� Annahmen (Hypothesen) bildend, Visualisierungen
� Integration Geografische Daten
� Konzepte für die Berichterstellung
� Konfiguration von Berichten
� Cross Media Publishing
Datenanalysetechniken
Yvette Teiken, Martin Rohde
5
25.11.2010
CARESS Multidimensionales Datenmodell
12440-59
60-69
70+ 8/989/98
Data Cube
... Nds. HH HB
Flächenstaat Stadtstaat
Gesamt Dimensionen
(Klassifikationshierarchien)
60+
…
<60
Gesamt
Patientenanzahl
1998 Gesamt
Alter
Zeit
Gebiet
� Dimensionen
� Fakten/Kennzahlen
Yvette Teiken, Martin Rohde
6
25.11.2010
CARESS Historie
� Historie
� Ab 1993 CARESS (1. Generation)
� Eigener Geoserver InterGIS
� UNIX, EKN-Schema, feste Analyseschemata
� Ab 1999 CARESS (2. Generation)
� Multidimensionales Datenmodell MADEIRA
� NT/Windows 2000 Portierung
� Ab 2003 CARESS (3. Generation)
� Neue „Windows-Oberfläche“
� Excel-Anbindung, flexible konfigurierbare Auswertungen
� Datenmodell für Statistik auf Data Cubes
� Ab 2008 Neuentwicklung CARESS (4. Generation)
� Standardkomponenten, Standardschnittstellen
� Serviceorientierte Architektur
Von 1994 bis Heute
Yvette Teiken, Martin Rohde
� Einer der zentralen Gründe für die Neuentwicklung
� Bessere Integration von statistischen Verfahren
� Unabhängige Entwicklung der statistischen Verfahren vom analytischen Informationssystem
� Verwendung vorhandener R-Packages, z.B. periodR
� R-Package „Cancer“ Krebsepidemiologie (Eigenentwicklung)
� SDR, SMR/SIR, Kumulative Rate, rohes relatives Risiko,
� CMF/CIF, Erwartete Fallzahlen bzw. Raten
� Indirekt standardisierte Raten,…
� Simulation der Konstanzmethode (nach Schüler und Bopp)
25.11.2010
7 CARESS HistorieAktueller Stand
Yvette Teiken, Martin Rohde
0 1 2 3 4
01
000
02
000
03
00
004
00
005
00
00
600
00
700
00
0
0.71
1.41
2.12
2.83
3.53
4.24
4.95
5.65
1 1.5 2 2.5 3 3.5
0 10 20 30 40 50
-10
12
3
8
25.11.2010
CARESS Analyseverfahren
� R Package „ClusterGeo“ (auf Basis des Packages „spdep“)
� Moran‘s I und Geary‘s c
� R Package „SurvivalAnalysis“ (auf Basis des Packages „periodR“)
� Verwendung der Methoden der Periodenanalyse basierend auf dem Ansatz zur Berechnung der Sterbetafeln
� Kohortenbasierte Analyse möglich
� Ederer II- oder Hakulinen-Methode für relatives Überleben
� absolute und relative Überlebensraten (beides bedingt oder kumulativ) und Standardfehler
� Graphische und tabellarische Darstellung der Ergebnisse
� R Package „Diagram“ für spezielle Diagramme (Eigenentwicklung)
� Z.B. Zeitverlauf von Infektionskrankheiten
Beispiele
0 1 2 3 4 5
020
40
6080
100
Survival estimation
year of follow-up
cum
ulat
ive
rela
tive
sur
viva
l at e
nd
of fo
llow
-up
year
0 1 2 3 4 5
cumulative relativerelative follow-up-year specific
cumulative absoluteabsolute follow-up-year specific
Yvette Teiken, Martin Rohde
Technische Realisierung
� Data Warehouse: Einheitliche, auswertungsorientierte, qualitätsgesicherte und historisierte Datenbank als Datenbasis („Single Point of Truth“)
� On-line Analytical Processing (OLAP): Performance durch Anbindung eines OLAP-Serversüber standardisierte XML/A- bzw. MDX-Schnittstelle
� Statistik: Umfassende und erweiterbare Statistik-Funktionalität durch Anbindung der Statistik-Software R Project
� Raumbezug: Anbindung eines geografischen Informationssystems zur engen Verknüpfung statistischer und raumbezogener Daten
� Usability: Windows Presentation Foundation (WPF) zur Realisierung von Benutzungsoberflächen
� Integrationsfähigkeit: Schnittstellen zu MS-Office-Produkten und Web-Service-Programmierschnittstellen
� Internetfähigkeit: Zugriff über Internet durch Smart-Client-Technologie
� Mandantenfähigkeit: Nutzung einer Software-Instanz durch mehrere Mandanten durch flexibles, konfigurierbares Datenmodell
25.11.2010
9Aktuelle Entwicklungsschwerpunkte
Yvette Teiken, Martin Rohde
� Unterstützung von Standardschnittstellen
� Multidimensional Expressions (MDX)
� XML for Analysis (XMLA)
� Open GIS Simple Feature Access (OGC Standards)
� R als Lingua Franca der Statistik
� Systeme, welche die Schnittstellen unterstützen:
� PostgreSQL, MS SQL Server als RDBMS
� Pentaho Mondrian oder SQL Server Analysis Services als OLAP-Server
� PostgreSQL (später SQL Server 8) als Geodatenbank
� R Project als Statistiksoftware
25.11.2010
10 CARESS Technologien
Yvette Teiken, Martin Rohde
Standardschnittstellen und -anfragesprachen
11
25.11.2010
CARESSArchitektur der neuen Version
OLAP-ServerPentaho/MondrianMS SQL-Server
CARESS-Services.NET 3.5 WCF
StatistikR Project
CARESS.NET 3.5 WPF
Data Warehouseinkl. Star-/Snowflake
Server
Client
GeodatenbankPostGIS
Yvette Teiken, Martin Rohde
12 MUSTANG/CARESS Innovationsmodell
Anwendungsorientierte ForschungProjekte und Plattformentwicklung
MUSTANG
- Agile Softwareentwicklung - Testgetriebene Entwicklung- Continuous Integration- Modellgetriebene Entwicklung- Interne .NET-Schulungen
Diss.-Thema „Intelligente
Datenanalyse“
IP „Karten mit Virtual Earth“
Diss.-Thema „Software
Produktlinien“
Diss.-Thema „Analytisches PM“
DA „Überwachung Annotierter
Strategy Maps“
OFFIS e.V., Bereich „Gesundheit“, Themenfeld „Datenmanagement und -analyse“
InfoAnalytics AG (Spin-off)
CARESS (Krebsregister)
INITIAL (LIGA)
Gesundheit NRW
(LIGA)
DA „Metamodell für Reporting“
PG „Visual Analytics“
Diss.-Thema „Modellgetriebene
Bereitstellung“
Yvette Teiken, Martin Rohde
13
25.11.2010
CARESS Raumbezug bei der DatenanalyseDrei Ebenen
� Auswahl zu betrachtender Regionen
� Dynamische Klassifizierung (Ad-Hoc-Kategorien)
� Auswahl von Regionen anhand geografischer Merkmale
�Z.B. Abstand von Emissionsquellen
� Auswahl von Regionen in einer Karte
� Prädikatbasierte Auswahl (Versorgungsstrukturen, …)
� Statistische Verfahren
� Clusterindizes – Nachbarschaft für Berechnung
� Räumliche Regression
�Interpolationsverfahren
� Ergebnisdarstellung
� Thematisch eingefärbte Karten
� Punktdarstellungen
� Diagramme in Karten
Auswahl von Regionen und Ergebnisdarstellung
Yvette Teiken, Martin Rohde
14
25.11.2010
CARESS Berichtswesen
� Zusammenfassung von Ergebnissen zu Berichtsmappen
� Konfigurationsmöglichkeiten
� Visualisierungen (und Layouteinstellungen)
� Auswertungsreihen für gleichartige Ergebnisse
� Zusatzinformationen für die Berichtsgenerierung
� Cross Media Publishing
� MUSTANG XML-Export
� Formatierung der Berichte (XSLT)
� für Veröffentlichungen im Internet (HTML)
� für Veröffentlichungen als PDF-Dateien
� für ein Portal (mit Ad-Hoc-Anfragen)
� Management-Cockpits / Management-Mappen
Yvette Teiken, Martin Rohde
Zeitplan Neuentwicklung
� 6.12.2010: Testinstallation einer „kleinen“ Version im EKN
� Diagramm, Karte, evtl. Tabelle
� Teilautomatisierte Übernahme der Altdaten
� Q1 2011:
� Installation in den (anderen) epidemiologischen Krebsregstern
� Erweiterung um Tabellen-Komponenten
� Q2 2011: Speicherung
� Persistierung von Analyseergebnissen
� Q3 2011: Berichtswesen
� Q4 2011: Räumlich-statistische Analysen
16
25.11.2010Yvette Teiken, Martin Rohde
Zugang zur Demo Version
� Kleine Demo zum Ausprobieren
� Diagramm
� Karte
� Überlebenszeit Analyse
� Zugang mittels Remotedesktop
� Fünf Zugänge
� Mehrfachverteilung � Zwangsabmeldung
� Begrenzter Zeitraum
� Verfügbarkeit: Ende nächster Woche
� Bei Interesse in Liste eintragen
� Benachrichtigung per Mail
17
25.11.2010Yvette Teiken, Martin Rohde
Aktuelle Weiterentwicklungen
� Themenschwerpunkt „ Versorgungsforschung“ im OFFIS-Bereich Gesundheit
� Professur für Angewandte Statistik (Prof. Dr. Kneib)
� Räumlich/kartographische Verfahren:
� räumliche (nicht kategorielle) Glättungsverfahren
� Geglättete kleinräumige Karten
� Einbindung von Interpolationsverfahren (z.B. Kriging)
� Verbindung mit den Krebsdaten
� Einbindung räumlicher Regressionsverfahren
� Beantragte Projekte
� Vorlaufforschung: „Methoden für die Versorgungsplanung“
� Abschätzung der Fallzahl kommende Jahre, …
� Weitere Drittmittelprojekte (EFRE, EU, BMBF) beantragt
18
25.11.2010
Versorgungsforschung, Statistische Verfahren
Yvette Teiken, Martin Rohde
Aktuelle Weiterentwicklungen
� Punktdaten
� Kennzahlen
� Punktgröße
� Farbe
� Zusatzinformationen
� Statistik
� Einzugsgebiete
� Interpolation
19
25.11.2010
Melder-/Patienten-/Umweltbezogene Daten
Yvette Teiken, Martin Rohde
Aktuelle Weiterentwicklungen20
25.11.2010
Facettenklassifikation
� Facettenklassifikation
� Einfacher Zugang zu Kennzahl (im EKN etwa 300 Kennzahlen)
� Klassifizierung von Kennzahlen über verschiedene Facetten
� Facetten: Dimensionskategorien (Granularitästebenen und einzelne Ausprägungen)
� Facetten: Z.B. „Moratlität“, „Inzidenz“, „Allgemein“ und weitere Beschreibungen (z.B. „Qualitätskennzahl“, „Risikokennzahl“, …)
Yvette Teiken, Martin Rohde
Aktuelle Weiterentwicklungen
Vortragender
21
25.11.2010
� Kartenanamorphosen
� Algorithmus, der die Länder im Verhältnis zum Kennzahlwert vergrößert oder verkleinert .
� Relative Bedeutung von Objekten besser wahrnehmbar als bei Choropletenkarten
� Mehrere Kennzahlen auf thematischen Karten darstellbar
Visual Analytics
AutoMais
� Ziel: Automatisierte Erzeugung von CARESSSchema
� Beschreibung von Aspekten mittels Modellierungssprachen
� Erzeugung von Software und Schemas mittels modellgetriebener Software Entwicklung
� Beispiele:
� Beschreibung von Würfeln
� Konsistenzbedinungen
� Integrationsaspekte
� Integration Endanwender
� Erste Ansätze: Altendatenübernahme
23
25.11.2010Yvette Teiken, Martin Rohde