Exascale -die nächste Schallmauer im ......Exascale -die nächste Schallmauer im Höchstleistungsrechnen: Wie und Warum? Prof. Dr. Martin Schulz LehrstuhlfürRechnerarchitektur& ParalleleSysteme

Exascale - die nächste Schallmauer im Höchstleistungsrechnen: Wie und Warum?

Prof. Dr. Martin Schulz

Lehrstuhl für Rechnerarchitektur & Parallele SystemeTechnische Universität München (TUM)

undMitglied des DirektoriumsLeibniz Rechenzentrum (LRZ)

Vortrag GI RegionalgruppeMünchen, Januar 2020

Page 2: Exascale -die nächste Schallmauer im ......Exascale -die nächste Schallmauer im Höchstleistungsrechnen: Wie und Warum? Prof. Dr. Martin Schulz LehrstuhlfürRechnerarchitektur& ParalleleSysteme

Martin Schulz - Persönlicher Hintergrund

Seit Oktober 2017 an der TU-München• Seit Januar 2019 im Direktorium des LRZ• Rechnerarchitektur: Prozessor- und Systemdesign – HPC bis Embedded• Parallele Systeme: System SW für HPC• Themen: Programmierbarkeit, Werkzeuge, Energie-Effizienz, …

Page 3: Exascale -die nächste Schallmauer im ......Exascale -die nächste Schallmauer im Höchstleistungsrechnen: Wie und Warum? Prof. Dr. Martin Schulz LehrstuhlfürRechnerarchitektur& ParalleleSysteme

Martin Schulz - Persönlicher Hintergrund

Seit Oktober 2017 an der TU-München• Seit Januar 2019 im Direktorium des LRZ• Rechnerarchitektur: Prozessor- und Systemdesign – HPC bis Embedded• Parallele Systeme: System SW für HPC• Themen: Programmierbarkeit, Werkzeuge, Energie-Effizienz, …

Davor: 2004-2017 am Lawrence Livermore National Laboratory• Forschungseinrichtung des US Departments of Energy (DOE)• Physiklabor mit großen Rechenanforderungen• Eines der größten Rechenzentren in den USA• Forschung an HPC System SW Themen

Page 4: Exascale -die nächste Schallmauer im ......Exascale -die nächste Schallmauer im Höchstleistungsrechnen: Wie und Warum? Prof. Dr. Martin Schulz LehrstuhlfürRechnerarchitektur& ParalleleSysteme

Martin Schulz - Persönlicher Hintergrund

Seit Oktober 2017 an der TU-München• Seit Januar 2019 im Direktorium des LRZ• Rechnerarchitektur: Prozessor- und Systemdesign – HPC bis Embedded• Parallele Systeme: System SW für HPC• Themen: Programmierbarkeit, Werkzeuge, Energie-Effizienz, …

Davor: 2004-2017 am Lawrence Livermore National Laboratory• Forschungseinrichtung des US Departments of Energy (DOE)• Physiklabor mit großen Rechenanforderungen• Eines der größten Rechenzentren in den USA• Forschung an HPC System SW Themen

Der Anfang war aber schon in München• Studium und Dissertation an der TU München• Kurze Zeit an der University of Illinois at Urbana Champaign und Cornell University

Page 5: Exascale -die nächste Schallmauer im ......Exascale -die nächste Schallmauer im Höchstleistungsrechnen: Wie und Warum? Prof. Dr. Martin Schulz LehrstuhlfürRechnerarchitektur& ParalleleSysteme

HPC als Rückgrat der Modernen Wissenschaft

Modellierung und Simulation als 3. StandbeinNeben Theorie und ExperimentenErmöglicht neue wissenschaftliche Erkenntnisse

Quelle:US Department of Energy

Page 6: Exascale -die nächste Schallmauer im ......Exascale -die nächste Schallmauer im Höchstleistungsrechnen: Wie und Warum? Prof. Dr. Martin Schulz LehrstuhlfürRechnerarchitektur& ParalleleSysteme

Lenovo Channel Kick-off | 26.03.19 | Laura Schulz

Material-Wissenschaften

MOLEKULARE UND KRISTALLINE STRUKTUREN, HALBLEITER

Page 7: Exascale -die nächste Schallmauer im ......Exascale -die nächste Schallmauer im Höchstleistungsrechnen: Wie und Warum? Prof. Dr. Martin Schulz LehrstuhlfürRechnerarchitektur& ParalleleSysteme

Beispiel aus der Materialwissenschaft

Molecular Dynamics Code ddcMD: 2 Millionen Atome (2005)Informatik Erfolg: Ausführung auf Blue Gene/L (128K Rechenkerne)Wissenschaftlicher Erfolg: Neue Erkenntnisse bei Materialerstarrung

https://e-reports-ext.llnl.gov/pdf/336469.pdf

Page 8: Exascale -die nächste Schallmauer im ......Exascale -die nächste Schallmauer im Höchstleistungsrechnen: Wie und Warum? Prof. Dr. Martin Schulz LehrstuhlfürRechnerarchitektur& ParalleleSysteme

Strömungs-mechanik

AUTOMOBIL,LUFT & RAUMFAHRT

Page 9: Exascale -die nächste Schallmauer im ......Exascale -die nächste Schallmauer im Höchstleistungsrechnen: Wie und Warum? Prof. Dr. Martin Schulz LehrstuhlfürRechnerarchitektur& ParalleleSysteme

Lenovo Channel Kick-off | 26.03.19 | Laura Schulz

Klimaforschung

WETTER-VERHÄLTNISSE &PREDIKTIONEN

Page 10: Exascale -die nächste Schallmauer im ......Exascale -die nächste Schallmauer im Höchstleistungsrechnen: Wie und Warum? Prof. Dr. Martin Schulz LehrstuhlfürRechnerarchitektur& ParalleleSysteme

Project ClimEx – Einfluß des Klimawandels

Page 11: Exascale -die nächste Schallmauer im ......Exascale -die nächste Schallmauer im Höchstleistungsrechnen: Wie und Warum? Prof. Dr. Martin Schulz LehrstuhlfürRechnerarchitektur& ParalleleSysteme

Geophysik

PLATTENTEKTONIK,ERDBEBEN-SIMULATIONEN

Page 12: Exascale -die nächste Schallmauer im ......Exascale -die nächste Schallmauer im Höchstleistungsrechnen: Wie und Warum? Prof. Dr. Martin Schulz LehrstuhlfürRechnerarchitektur& ParalleleSysteme

Lenovo Channel Kick-off | 26.03.19 | Laura Schulz

Medizin undMedizintechnik

BLUTABFLUSS,ANEURYSEN

Page 13: Exascale -die nächste Schallmauer im ......Exascale -die nächste Schallmauer im Höchstleistungsrechnen: Wie und Warum? Prof. Dr. Martin Schulz LehrstuhlfürRechnerarchitektur& ParalleleSysteme

HPC als Rückgrat der Modernen Wissenschaft

Modellierung und Simulation als 3. StandbeinNeben Theorie und ExperimentenErmöglicht neue wissenschaftliche Erkenntnisse

Daten-zentrischGroße DatenmengenErfassung, Speicherung, Auswertung

Quelle:US Department of Energy

Page 14: Exascale -die nächste Schallmauer im ......Exascale -die nächste Schallmauer im Höchstleistungsrechnen: Wie und Warum? Prof. Dr. Martin Schulz LehrstuhlfürRechnerarchitektur& ParalleleSysteme

14

12.01.2020 | Dieter Kranzlmüller

711. WE-Heraeus-Seminar

Artist’s impression of the SKA dishes. Credit: SKA Organisationhttps://germany.skatelescope.org/ska-project/

https://germany.skatelescope.org/ska-project/

Page 15: Exascale -die nächste Schallmauer im ......Exascale -die nächste Schallmauer im Höchstleistungsrechnen: Wie und Warum? Prof. Dr. Martin Schulz LehrstuhlfürRechnerarchitektur& ParalleleSysteme

Terra_Byte: Gemeinschaftsprojekt DLR / LRZ

Speicherung und Analysevon Satellitendaten - Von allen DLR Missionen- 40-50 PB bis 2025- Nutzbar von allen Forschungs-

partnern des LRZ

Benötigt sowohl Rechen- alsauch Datenzugriffsleistung (!)

Muss hoch skalierbar seinFoto: Alessandro Podo, LRZ

Page 16: Exascale -die nächste Schallmauer im ......Exascale -die nächste Schallmauer im Höchstleistungsrechnen: Wie und Warum? Prof. Dr. Martin Schulz LehrstuhlfürRechnerarchitektur& ParalleleSysteme

HPC als Rückgrat der Modernen Wissenschaft

Modellierung und Simulation als 3. StandbeinNeben Theorie und ExperimentenErmöglicht neue wissenschaftliche Erkenntnisse

Daten-zentrischGroße DatenmengenErfassung, Speicherung, Auswertung

Maschinelles Lernen und KI als neues GebietNeue Anwendungen

Quelle:US Department of Energy

Page 17: Exascale -die nächste Schallmauer im ......Exascale -die nächste Schallmauer im Höchstleistungsrechnen: Wie und Warum? Prof. Dr. Martin Schulz LehrstuhlfürRechnerarchitektur& ParalleleSysteme

Beispiel: Optimierung von Gas Turbinen

Gas Turbinen

Rückgrat für das Stromnetz

Flexibel und schnell wechselnd

Betrieb unter Teillast wichtig

Hochauflösende Akustiksensoren

Überwachung des Brennverhaltens

Kombiniert mit Betriebsdaten

Ca. 0,3 TB pro Tag

Basis für Optimierung und Wartung

Page 18: Exascale -die nächste Schallmauer im ......Exascale -die nächste Schallmauer im Höchstleistungsrechnen: Wie und Warum? Prof. Dr. Martin Schulz LehrstuhlfürRechnerarchitektur& ParalleleSysteme

HPC als Rückgrat der Modernen Wissenschaft

Modellierung und Simulation als 3. StandbeinNeben Theorie und ExperimentenErmöglicht neue wissenschaftliche Erkenntnisse

Daten-zentrischGroße DatenmengenErfassung, Speicherung, Auswertung

Maschinelles Lernen und KI als neues GebietNeue AnwendungenNutzung in klassischer Simulation

Quelle:US Department of Energy

Page 19: Exascale -die nächste Schallmauer im ......Exascale -die nächste Schallmauer im Höchstleistungsrechnen: Wie und Warum? Prof. Dr. Martin Schulz LehrstuhlfürRechnerarchitektur& ParalleleSysteme

HPC als Rückgrat der Modernen Wissenschaft

Modellierung und Simulation als 3. StandbeinNeben Theorie und ExperimentenErmöglicht neue wissenschaftliche Erkenntnisse

Daten-zentrischGroße DatenmengenErfassung, Speicherung, Auswertung

Maschinelles Lernen und KI als neues GebietNeue AnwendungenNutzung in klassischer Simulation

Nachfrage nach HPC Ressourcen weiterhin steigendQuelle:

US Department of Energy

Page 20: Exascale -die nächste Schallmauer im ......Exascale -die nächste Schallmauer im Höchstleistungsrechnen: Wie und Warum? Prof. Dr. Martin Schulz LehrstuhlfürRechnerarchitektur& ParalleleSysteme

Quelle: Top500, 11.2018

Deutschland:SuperMUC-NG19.5 Pflop/s Linpack

Top 500 / Nov. 2018

USA: Summit (ORNL)

China: Sunway TaihuLight(NSC Wuxi)

Page 21: Exascale -die nächste Schallmauer im ......Exascale -die nächste Schallmauer im Höchstleistungsrechnen: Wie und Warum? Prof. Dr. Martin Schulz LehrstuhlfürRechnerarchitektur& ParalleleSysteme

SuperMUC-NG

Installiert Ende 2018Nachfolger von SuperMUC-I/II

26.9 Pflop/s Top Leisting6,480 Lenovo ThinkSystem Knoten

mit 311,040 Intel Xeon Kernen719 TByte Hauptspeicher und70 PByte LangzeitspeicherDirekte Kühlung mit „Warm“wasser

#9 Top500

Page 22: Exascale -die nächste Schallmauer im ......Exascale -die nächste Schallmauer im Höchstleistungsrechnen: Wie und Warum? Prof. Dr. Martin Schulz LehrstuhlfürRechnerarchitektur& ParalleleSysteme

Nächster Schritt: Exascale

1018 Operationen pro Sekunde

Ein Milliarde Milliarde Operationen pro Sekunde

Vergleich iPhone X: 600 Milliarden Operationen pro Sekunde

Erklärtes Ziel mehrerer Nationen

Große Projekte

Förderprogramme

„New Space Race“

Neue Herausforderungen

Informatik

Rechenzentrum

Anwendungen

Quelle: IDC

Page 23: Exascale -die nächste Schallmauer im ......Exascale -die nächste Schallmauer im Höchstleistungsrechnen: Wie und Warum? Prof. Dr. Martin Schulz LehrstuhlfürRechnerarchitektur& ParalleleSysteme

HPC Top500 Entwicklung

Quelle: Top500

June 2013 20242020

Page 24: Exascale -die nächste Schallmauer im ......Exascale -die nächste Schallmauer im Höchstleistungsrechnen: Wie und Warum? Prof. Dr. Martin Schulz LehrstuhlfürRechnerarchitektur& ParalleleSysteme

Page 25: Exascale -die nächste Schallmauer im ......Exascale -die nächste Schallmauer im Höchstleistungsrechnen: Wie und Warum? Prof. Dr. Martin Schulz LehrstuhlfürRechnerarchitektur& ParalleleSysteme

Wendepunkte

Ende von „Dennard Scaling“!“Die Leistungsdichte vonTransistoren ist konstant”

Schon seit 2007Konsequenz: mehr Parallelität

Ende des „Moore‘s Law“?“Die Zahl der Transistoren verdoppelt sich alle 18 Jahre”

Trend zu Akzeleratorenund Spezialisierung

Page 26: Exascale -die nächste Schallmauer im ......Exascale -die nächste Schallmauer im Höchstleistungsrechnen: Wie und Warum? Prof. Dr. Martin Schulz LehrstuhlfürRechnerarchitektur& ParalleleSysteme

Exascale Herausforderungen

Akzeleratoren

Page 27: Exascale -die nächste Schallmauer im ......Exascale -die nächste Schallmauer im Höchstleistungsrechnen: Wie und Warum? Prof. Dr. Martin Schulz LehrstuhlfürRechnerarchitektur& ParalleleSysteme

Beispiele von AkzeleratorenGPU: Graphics Processing Units

Beispiel: NVIDIA’s Tesla V100 (Volta Generation)Single Instruction Multiple Data (SIMD)

FPGA: Field Programmable Gate Arrays “Spatial Computing”Programmierbare HardwareSpezialsprachen wie VHDL und Verilog

DatenflußansätzeAbkehr von sequentieller ProgrammierungNur Operationen und AbhängigkeitenSchwierige Integration und Programmierbarkeit

Page 28: Exascale -die nächste Schallmauer im ......Exascale -die nächste Schallmauer im Höchstleistungsrechnen: Wie und Warum? Prof. Dr. Martin Schulz LehrstuhlfürRechnerarchitektur& ParalleleSysteme

Dichte System Integration

Page 29: Exascale -die nächste Schallmauer im ......Exascale -die nächste Schallmauer im Höchstleistungsrechnen: Wie und Warum? Prof. Dr. Martin Schulz LehrstuhlfürRechnerarchitektur& ParalleleSysteme

Graphics Processing Units (GPUs)

Ursprünglich gedacht für schnelle GraphikausgabenZeichnen von Dreiecken, Shading, Texture mapping, …Am Anfang spezielle Operationen, später mehr und mehr programmierbar

Erste vollständig programmierbare GPUs um 2006Auch “General Purpuse GPUs (GPGPUs)” genanntCUDA: Entwickling von NVIDIA zur Programmierung

Heute sind die meisten GPUs programmierbarFrom AMD GPUs to integrated SoCs as on the Raspberry PiAnsatz SIMD: Eine Instruktion führt Operation auf mehreren Daten ausHohe ParallelitätAber: muss auch im Programm ausgedrückt werden

Page 30: Exascale -die nächste Schallmauer im ......Exascale -die nächste Schallmauer im Höchstleistungsrechnen: Wie und Warum? Prof. Dr. Martin Schulz LehrstuhlfürRechnerarchitektur& ParalleleSysteme

NVIDIA’s Volta

Page 31: Exascale -die nächste Schallmauer im ......Exascale -die nächste Schallmauer im Höchstleistungsrechnen: Wie und Warum? Prof. Dr. Martin Schulz LehrstuhlfürRechnerarchitektur& ParalleleSysteme

NVIDIA’s Volta

Einfache KomponentenRepliziert auf einem ChipPr ecision)

Page 32: Exascale -die nächste Schallmauer im ......Exascale -die nächste Schallmauer im Höchstleistungsrechnen: Wie und Warum? Prof. Dr. Martin Schulz LehrstuhlfürRechnerarchitektur& ParalleleSysteme

NVIDIA’s Volta

Einzelne SMsEine DispatcheinheitViele Recheneinheiten

Neu: SpezialhardwareTensorcores für

ProgrammierbareMatrixmultiplikation

Wichtig für KI/Deep Learning125 Tflop/s (reduced precision)

Einfache KomponentenRepliziert auf einem ChipPr ecision)

Page 33: Exascale -die nächste Schallmauer im ......Exascale -die nächste Schallmauer im Höchstleistungsrechnen: Wie und Warum? Prof. Dr. Martin Schulz LehrstuhlfürRechnerarchitektur& ParalleleSysteme

Potential von GPUs

Quelle: NVIDIA, CUDA C Programming Guide

Page 34: Exascale -die nächste Schallmauer im ......Exascale -die nächste Schallmauer im Höchstleistungsrechnen: Wie und Warum? Prof. Dr. Martin Schulz LehrstuhlfürRechnerarchitektur& ParalleleSysteme

Problem: Programmierbarkeit

Ansätze oft Low-level oder nur für einen HerstellerNVIDIA’s Ansatz: CUDAOpenCL als allgemeiner Ansatz

Erweiterung von bestehenden SprachenOpenMP: ursprünglich für Threading in einzelnen KnotenOpenACC: Spezial-Ansatz für GPUs, aber ähnlich zu OpenMP

Höhere AbstraktionsebenenPortabilitätsabstraktionen wie Raja, Kokkos oder SYCLDomänen-spezifische Sprachen

Kombinationen von Ansätzen

Page 35: Exascale -die nächste Schallmauer im ......Exascale -die nächste Schallmauer im Höchstleistungsrechnen: Wie und Warum? Prof. Dr. Martin Schulz LehrstuhlfürRechnerarchitektur& ParalleleSysteme

SkalierbarkeitViele Recheneinheiten liefern viele Daten- Sammeln und Speichern- Schwierige Auswertung- Interaktionen sind problematischNeue Werkzeugansätzer nötig

Beispiel: Debugging“Nadel im Heuhaufen”Ansatz: ”Was verhält sich anders?”Vergleich von Programm-Status

Nicht nur für Programmfehler

Page 36: Exascale -die nächste Schallmauer im ......Exascale -die nächste Schallmauer im Höchstleistungsrechnen: Wie und Warum? Prof. Dr. Martin Schulz LehrstuhlfürRechnerarchitektur& ParalleleSysteme

Beispiel mit > 1,000,000 Prozessen

Einzelner Prozess

Alle Anderen in der Barriere

Node List of N-1 Tasks

Page 37: Exascale -die nächste Schallmauer im ......Exascale -die nächste Schallmauer im Höchstleistungsrechnen: Wie und Warum? Prof. Dr. Martin Schulz LehrstuhlfürRechnerarchitektur& ParalleleSysteme

Exascale Herausforderungen

AkzeleratorenProgrammierung benötigt neue standardisierte AnsätzeWerkzeugunterstützung!

NetzwerkeNiedrige Latenz und hohe BandbreiteNetzwerktopologien zur Minimierung von „Contention“

Page 38: Exascale -die nächste Schallmauer im ......Exascale -die nächste Schallmauer im Höchstleistungsrechnen: Wie und Warum? Prof. Dr. Martin Schulz LehrstuhlfürRechnerarchitektur& ParalleleSysteme

Netzwerk Topologien

Quellen: Clusterdesign.org, ANL,

Fujitsu, Wikipedia

Fat-Tree: most cluster interconnects

Torus: BG/L (3D), BG/Q (4.5D), K (6D), Cray XT3 (3D)

Dragonfly: Cray XEHypercube: Intel Paragon, SGI Altix (modified)

Page 39: Exascale -die nächste Schallmauer im ......Exascale -die nächste Schallmauer im Höchstleistungsrechnen: Wie und Warum? Prof. Dr. Martin Schulz LehrstuhlfürRechnerarchitektur& ParalleleSysteme

Dragonfly Netzwerke

Quelle: Bhatele and Bremer, LLNL

Page 40: Exascale -die nächste Schallmauer im ......Exascale -die nächste Schallmauer im Höchstleistungsrechnen: Wie und Warum? Prof. Dr. Martin Schulz LehrstuhlfürRechnerarchitektur& ParalleleSysteme

Exascale Herausforderungen

AkzeleratorenProgrammierung benötigt neue standardisierte AnsätzeWerkzeugunterstützung!

NetzwerkeNiedrige Latenz und hohe BandbreiteNetzwerktopologien zur Minimierung von „Contention“

FehlertoleranzGroße Anzahl von Komponenten reduziert MTBFAnstrengungen in Hardware und Software nötig

Energie-Effizienz / Leistungslimits

Page 41: Exascale -die nächste Schallmauer im ......Exascale -die nächste Schallmauer im Höchstleistungsrechnen: Wie und Warum? Prof. Dr. Martin Schulz LehrstuhlfürRechnerarchitektur& ParalleleSysteme

Energie Effizienz

0

5.000

10.000

15.000

20.000

25.000

30.000

35.000

40.000

45.000

50.000

Ener

gy C

onsu

mpt

ion

in M

Wh

HPC System

LRZ Total

Page 42: Exascale -die nächste Schallmauer im ......Exascale -die nächste Schallmauer im Höchstleistungsrechnen: Wie und Warum? Prof. Dr. Martin Schulz LehrstuhlfürRechnerarchitektur& ParalleleSysteme

Energie Effizienz

0

5.000

10.000

15.000

20.000

25.000

30.000

35.000

40.000

45.000

50.000

Ener

gy C

onsu

mpt

ion

in M

Wh

HPC System

LRZ Total

0.063 €

0.162 €

€ / K

Wh

Page 43: Exascale -die nächste Schallmauer im ......Exascale -die nächste Schallmauer im Höchstleistungsrechnen: Wie und Warum? Prof. Dr. Martin Schulz LehrstuhlfürRechnerarchitektur& ParalleleSysteme

Energie Effizienz

Aktives EnergiemanagementBeim System-EntwurfBei der InfrastrukturplanungWährend des Betriebs

0

5.000

10.000

15.000

20.000

25.000

30.000

35.000

40.000

45.000

50.000

Ener

gy C

onsu

mpt

ion

in M

Wh

HPC System

LRZ Total

0.063 €

0.162 €

€ / K

Wh

Page 44: Exascale -die nächste Schallmauer im ......Exascale -die nächste Schallmauer im Höchstleistungsrechnen: Wie und Warum? Prof. Dr. Martin Schulz LehrstuhlfürRechnerarchitektur& ParalleleSysteme

Energie-Effizienz am LRZ

FührendeRolle bei

HeißwasserKühlung

Page 45: Exascale -die nächste Schallmauer im ......Exascale -die nächste Schallmauer im Höchstleistungsrechnen: Wie und Warum? Prof. Dr. Martin Schulz LehrstuhlfürRechnerarchitektur& ParalleleSysteme

Energie-Effizienz am LRZ

Nutzung der Hitze

(Heizen, Adsorption Kühlung)

FührendeRolle bei

HeißwasserKühlung

Page 46: Exascale -die nächste Schallmauer im ......Exascale -die nächste Schallmauer im Höchstleistungsrechnen: Wie und Warum? Prof. Dr. Martin Schulz LehrstuhlfürRechnerarchitektur& ParalleleSysteme

Adsorption Kühlung @ LRZ: CooLMUC-2Foto:Torsten Bloth, Lenovo

• Lenovo NeXtScale Water Cool Technology (WCT)• Eingangstemperatur 30˚C – 50˚C• 384 Rechenknoten (2x 14 core Intel Haswell)• 466 TFlop/s Peak Leistung, #356 auf der Top500 Liste (Juni 2016).

Page 47: Exascale -die nächste Schallmauer im ......Exascale -die nächste Schallmauer im Höchstleistungsrechnen: Wie und Warum? Prof. Dr. Martin Schulz LehrstuhlfürRechnerarchitektur& ParalleleSysteme

A Holistic Approach Towards Energy Efficiency

FührendeRolle bei

HeißwasserKühlung

Nutzung der Hitze

(Heizen, Adsorption Kühlung)

DetailiertesMonitoring

Was man nicht messen kann, kann man nicht optimieren!

Page 48: Exascale -die nächste Schallmauer im ......Exascale -die nächste Schallmauer im Höchstleistungsrechnen: Wie und Warum? Prof. Dr. Martin Schulz LehrstuhlfürRechnerarchitektur& ParalleleSysteme

Effic

ienc

y

Von der Infrastruktur bis zum Rechenknoten

Beispiel - Effizienz der Kühlung- Umschalten von

Sommer auf Winter- Früherkennung von

Problemen

Monitoring - Infrastruktur- Scheduler- Anwendungen- Verschiedene Granularität- Große Datenmengen

Änderung in der

Kühlungseffizenz

Wechsel zukalten Wasser

Page 49: Exascale -die nächste Schallmauer im ......Exascale -die nächste Schallmauer im Höchstleistungsrechnen: Wie und Warum? Prof. Dr. Martin Schulz LehrstuhlfürRechnerarchitektur& ParalleleSysteme

Die „Datacenter Database“

DCDB Pusher

Plugins

User/Admin Interface

REST API

Sensor Cache

Compute nodes [1,..,N] / Infrastructure Nodes

Pusher core

libdcdbDB Interface

DCDB Collect Agent

Sensor Cache

Operations Monitoring

REST API

Management and analytics nodes [1,..,M]

MQTT Server Collect Agent core

http://dcdb.it/Ott, Tafani, Netti, et al.

http://dcdb.it/

Page 50: Exascale -die nächste Schallmauer im ......Exascale -die nächste Schallmauer im Höchstleistungsrechnen: Wie und Warum? Prof. Dr. Martin Schulz LehrstuhlfürRechnerarchitektur& ParalleleSysteme

A Holistic Approach Towards Energy Efficiency

FührendeRolle bei

HeißwasserKühlung

Nutzung der Hitze

(Heizen, Adsorption Kühlung)

DetailiertesMonitoring

DatenAnalyse

Page 51: Exascale -die nächste Schallmauer im ......Exascale -die nächste Schallmauer im Höchstleistungsrechnen: Wie und Warum? Prof. Dr. Martin Schulz LehrstuhlfürRechnerarchitektur& ParalleleSysteme

Wintermute Analyse Framework

DCDB Pusher

Plugins

User/Admin Interface

REST API

Sensor Cache WintermuteDA Engine

Compute nodes [1,..,N]

Pusher core

libdcdb

DB Interface

DCDB Collect Agent

WintermuteDA Engine

Sensor Cache

Operations Monitoring

REST API

Management and analytics nodes [1,..,M]

MQTT Server Collect Agent core

http://dcdb.it/Ott, Tafani, Netti, et al.

http://dcdb.it/

Page 52: Exascale -die nächste Schallmauer im ......Exascale -die nächste Schallmauer im Höchstleistungsrechnen: Wie und Warum? Prof. Dr. Martin Schulz LehrstuhlfürRechnerarchitektur& ParalleleSysteme

Wintermute Beispiel

Clustering von Knoten VerhaltenStromaufnahmeTemperatur„Idletime“

Durchgeführt auf dem Collect AgentÜber mehrere ZeitfensterErgebnisse in DCDB gespeichert

Entdeckung von Verhaltensgruppenund Anomalien

Page 53: Exascale -die nächste Schallmauer im ......Exascale -die nächste Schallmauer im Höchstleistungsrechnen: Wie und Warum? Prof. Dr. Martin Schulz LehrstuhlfürRechnerarchitektur& ParalleleSysteme

Ausgabe aus der „Datacenter Database“

DCDB Pusher

Plugins

User/Admin Interface

REST API

Sensor Cache WinternuteDA Engine

Compute nodes [1,..,N]

Pusher core

libdcdbDB Interface

Data Visualisation

Feedback to RM

DCDB Collect Agent

WintermuteDA Engine

Sensor Cache

Operations Monitoring

REST API

Management and analytics nodes [1,..,M]

MQTT Server Collect Agent core

Page 54: Exascale -die nächste Schallmauer im ......Exascale -die nächste Schallmauer im Höchstleistungsrechnen: Wie und Warum? Prof. Dr. Martin Schulz LehrstuhlfürRechnerarchitektur& ParalleleSysteme

A Holistic Approach Towards Energy Efficiency

FührendeRolle bei

HeißwasserKühlung

Nutzung der Hitze

(Heizen, Adsorption Kühlung)

DetailiertesMonitoring

DatenAnalyse

Energie-bezogenesScheduling

Page 55: Exascale -die nächste Schallmauer im ......Exascale -die nächste Schallmauer im Höchstleistungsrechnen: Wie und Warum? Prof. Dr. Martin Schulz LehrstuhlfürRechnerarchitektur& ParalleleSysteme

Actives Power/Energie ManagementZentrum spezifische Policy

Power vs. FrequenzAdaptives CappingBenötigt Anreize für Benutzer

Power Management auf allen EbenenNode level Power managementJob level Power managementSystem level Power managementSystem design

Integration in den globalen Resource ManagerSetzen von job-level power limitsKontrolle von Limits

System-levelPower-Mgmt.

Job-levelPower-Mgmt.

Node-levelPower-Mgmt.

KontrolleMessung

Resource M

anager

Policy

Page 56: Exascale -die nächste Schallmauer im ......Exascale -die nächste Schallmauer im Höchstleistungsrechnen: Wie und Warum? Prof. Dr. Martin Schulz LehrstuhlfürRechnerarchitektur& ParalleleSysteme

System Level

Node Level

Job Level

RM

Policy

App/User

Die PowerStack Initiative

Ziel: hierarchisches System das einebreite Zahl von Szenarien

Neue International Initiative fürGemeinsame TerminologieKombinierbar KomponentenVergleichbare Policies

ArbitrationMonitoring

EmergencyRamping

Power-Skimming

GoalsFeedback

Use Cases

Start: Juni 2018 Seminar im

TUM Science & Study Center Raitenhaslach

Page 57: Exascale -die nächste Schallmauer im ......Exascale -die nächste Schallmauer im Höchstleistungsrechnen: Wie und Warum? Prof. Dr. Martin Schulz LehrstuhlfürRechnerarchitektur& ParalleleSysteme

Nächste Schallmauer: ExascaleHPC wächst in Bedeutung für Industrie und Wissenschaft

Simulation neben Theorie und ExperimentenNeue Anwendungsgebiete: Big Data und KI

Technische HerausforderungenProgrammierbarkeit neuer HardwareNeue NetzwerkeFehlertoleranzEnergieeffizienz

Erste Systeme in 2021 (?)A21 in ArgonneChina?

Und dann?

Download - Exascale -die nächste Schallmauer im ......Exascale -die nächste Schallmauer im Höchstleistungsrechnen: Wie und Warum? Prof. Dr. Martin Schulz LehrstuhlfürRechnerarchitektur& ParalleleSysteme