Exascale - die nächste Schallmauer im Höchstleistungsrechnen: Wie und Warum?
Prof. Dr. Martin Schulz
Lehrstuhl für Rechnerarchitektur & Parallele SystemeTechnische Universität München (TUM)
undMitglied des DirektoriumsLeibniz Rechenzentrum (LRZ)
Vortrag GI RegionalgruppeMünchen, Januar 2020
Martin Schulz - Persönlicher Hintergrund
Seit Oktober 2017 an der TU-München• Seit Januar 2019 im Direktorium des LRZ• Rechnerarchitektur: Prozessor- und Systemdesign – HPC bis Embedded• Parallele Systeme: System SW für HPC• Themen: Programmierbarkeit, Werkzeuge, Energie-Effizienz, …
Martin Schulz - Persönlicher Hintergrund
Seit Oktober 2017 an der TU-München• Seit Januar 2019 im Direktorium des LRZ• Rechnerarchitektur: Prozessor- und Systemdesign – HPC bis Embedded• Parallele Systeme: System SW für HPC• Themen: Programmierbarkeit, Werkzeuge, Energie-Effizienz, …
Davor: 2004-2017 am Lawrence Livermore National Laboratory• Forschungseinrichtung des US Departments of Energy (DOE)• Physiklabor mit großen Rechenanforderungen• Eines der größten Rechenzentren in den USA• Forschung an HPC System SW Themen
Martin Schulz - Persönlicher Hintergrund
Seit Oktober 2017 an der TU-München• Seit Januar 2019 im Direktorium des LRZ• Rechnerarchitektur: Prozessor- und Systemdesign – HPC bis Embedded• Parallele Systeme: System SW für HPC• Themen: Programmierbarkeit, Werkzeuge, Energie-Effizienz, …
Davor: 2004-2017 am Lawrence Livermore National Laboratory• Forschungseinrichtung des US Departments of Energy (DOE)• Physiklabor mit großen Rechenanforderungen• Eines der größten Rechenzentren in den USA• Forschung an HPC System SW Themen
Der Anfang war aber schon in München• Studium und Dissertation an der TU München• Kurze Zeit an der University of Illinois at Urbana Champaign und Cornell University
HPC als Rückgrat der Modernen Wissenschaft
Modellierung und Simulation als 3. StandbeinNeben Theorie und ExperimentenErmöglicht neue wissenschaftliche Erkenntnisse
Quelle:US Department of Energy
Lenovo Channel Kick-off | 26.03.19 | Laura Schulz
Material-Wissenschaften
MOLEKULARE UND KRISTALLINE STRUKTUREN, HALBLEITER
Beispiel aus der Materialwissenschaft
Molecular Dynamics Code ddcMD: 2 Millionen Atome (2005)Informatik Erfolg: Ausführung auf Blue Gene/L (128K Rechenkerne)Wissenschaftlicher Erfolg: Neue Erkenntnisse bei Materialerstarrung
https://e-reports-ext.llnl.gov/pdf/336469.pdf
Strömungs-mechanik
AUTOMOBIL,LUFT & RAUMFAHRT
Lenovo Channel Kick-off | 26.03.19 | Laura Schulz
Klimaforschung
WETTER-VERHÄLTNISSE &PREDIKTIONEN
Project ClimEx – Einfluß des Klimawandels
Geophysik
PLATTENTEKTONIK,ERDBEBEN-SIMULATIONEN
Lenovo Channel Kick-off | 26.03.19 | Laura Schulz
Medizin undMedizintechnik
BLUTABFLUSS,ANEURYSEN
HPC als Rückgrat der Modernen Wissenschaft
Modellierung und Simulation als 3. StandbeinNeben Theorie und ExperimentenErmöglicht neue wissenschaftliche Erkenntnisse
Daten-zentrischGroße DatenmengenErfassung, Speicherung, Auswertung
Quelle:US Department of Energy
14
12.01.2020 | Dieter Kranzlmüller
711. WE-Heraeus-Seminar
Artist’s impression of the SKA dishes. Credit: SKA Organisationhttps://germany.skatelescope.org/ska-project/
Terra_Byte: Gemeinschaftsprojekt DLR / LRZ
Speicherung und Analysevon Satellitendaten - Von allen DLR Missionen- 40-50 PB bis 2025- Nutzbar von allen Forschungs-
partnern des LRZ
Benötigt sowohl Rechen- alsauch Datenzugriffsleistung (!)
Muss hoch skalierbar seinFoto: Alessandro Podo, LRZ
HPC als Rückgrat der Modernen Wissenschaft
Modellierung und Simulation als 3. StandbeinNeben Theorie und ExperimentenErmöglicht neue wissenschaftliche Erkenntnisse
Daten-zentrischGroße DatenmengenErfassung, Speicherung, Auswertung
Maschinelles Lernen und KI als neues GebietNeue Anwendungen
Quelle:US Department of Energy
Beispiel: Optimierung von Gas Turbinen
Gas Turbinen
Rückgrat für das Stromnetz
Flexibel und schnell wechselnd
Betrieb unter Teillast wichtig
Hochauflösende Akustiksensoren
Überwachung des Brennverhaltens
Kombiniert mit Betriebsdaten
Ca. 0,3 TB pro Tag
Basis für Optimierung und Wartung
HPC als Rückgrat der Modernen Wissenschaft
Modellierung und Simulation als 3. StandbeinNeben Theorie und ExperimentenErmöglicht neue wissenschaftliche Erkenntnisse
Daten-zentrischGroße DatenmengenErfassung, Speicherung, Auswertung
Maschinelles Lernen und KI als neues GebietNeue AnwendungenNutzung in klassischer Simulation
Quelle:US Department of Energy
HPC als Rückgrat der Modernen Wissenschaft
Modellierung und Simulation als 3. StandbeinNeben Theorie und ExperimentenErmöglicht neue wissenschaftliche Erkenntnisse
Daten-zentrischGroße DatenmengenErfassung, Speicherung, Auswertung
Maschinelles Lernen und KI als neues GebietNeue AnwendungenNutzung in klassischer Simulation
Nachfrage nach HPC Ressourcen weiterhin steigendQuelle:
US Department of Energy
Quelle: Top500, 11.2018
Deutschland:SuperMUC-NG19.5 Pflop/s Linpack
Top 500 / Nov. 2018
USA: Summit (ORNL)
China: Sunway TaihuLight(NSC Wuxi)
SuperMUC-NG
Installiert Ende 2018Nachfolger von SuperMUC-I/II
26.9 Pflop/s Top Leisting6,480 Lenovo ThinkSystem Knoten
mit 311,040 Intel Xeon Kernen719 TByte Hauptspeicher und70 PByte LangzeitspeicherDirekte Kühlung mit „Warm“wasser
#9 Top500
Nächster Schritt: Exascale
1018 Operationen pro Sekunde
Ein Milliarde Milliarde Operationen pro Sekunde
Vergleich iPhone X: 600 Milliarden Operationen pro Sekunde
Erklärtes Ziel mehrerer Nationen
Große Projekte
Förderprogramme
„New Space Race“
Neue Herausforderungen
Informatik
Rechenzentrum
Anwendungen
Quelle: IDC
HPC Top500 Entwicklung
Quelle: Top500
June 2013 20242020
Wendepunkte
Ende von „Dennard Scaling“!“Die Leistungsdichte vonTransistoren ist konstant”
Schon seit 2007Konsequenz: mehr Parallelität
Ende des „Moore‘s Law“?“Die Zahl der Transistoren verdoppelt sich alle 18 Jahre”
Trend zu Akzeleratorenund Spezialisierung
Exascale Herausforderungen
Akzeleratoren
Beispiele von AkzeleratorenGPU: Graphics Processing Units
Beispiel: NVIDIA’s Tesla V100 (Volta Generation)Single Instruction Multiple Data (SIMD)
FPGA: Field Programmable Gate Arrays “Spatial Computing”Programmierbare HardwareSpezialsprachen wie VHDL und Verilog
DatenflußansätzeAbkehr von sequentieller ProgrammierungNur Operationen und AbhängigkeitenSchwierige Integration und Programmierbarkeit
Dichte System Integration
Graphics Processing Units (GPUs)
Ursprünglich gedacht für schnelle GraphikausgabenZeichnen von Dreiecken, Shading, Texture mapping, …Am Anfang spezielle Operationen, später mehr und mehr programmierbar
Erste vollständig programmierbare GPUs um 2006Auch “General Purpuse GPUs (GPGPUs)” genanntCUDA: Entwickling von NVIDIA zur Programmierung
Heute sind die meisten GPUs programmierbarFrom AMD GPUs to integrated SoCs as on the Raspberry PiAnsatz SIMD: Eine Instruktion führt Operation auf mehreren Daten ausHohe ParallelitätAber: muss auch im Programm ausgedrückt werden
NVIDIA’s Volta
NVIDIA’s Volta
Einfache KomponentenRepliziert auf einem ChipPr ecision)
NVIDIA’s Volta
Einzelne SMsEine DispatcheinheitViele Recheneinheiten
Neu: SpezialhardwareTensorcores für
ProgrammierbareMatrixmultiplikation
Wichtig für KI/Deep Learning125 Tflop/s (reduced precision)
Einfache KomponentenRepliziert auf einem ChipPr ecision)
Potential von GPUs
Quelle: NVIDIA, CUDA C Programming Guide
Problem: Programmierbarkeit
Ansätze oft Low-level oder nur für einen HerstellerNVIDIA’s Ansatz: CUDAOpenCL als allgemeiner Ansatz
Erweiterung von bestehenden SprachenOpenMP: ursprünglich für Threading in einzelnen KnotenOpenACC: Spezial-Ansatz für GPUs, aber ähnlich zu OpenMP
Höhere AbstraktionsebenenPortabilitätsabstraktionen wie Raja, Kokkos oder SYCLDomänen-spezifische Sprachen
Kombinationen von Ansätzen
SkalierbarkeitViele Recheneinheiten liefern viele Daten- Sammeln und Speichern- Schwierige Auswertung- Interaktionen sind problematischNeue Werkzeugansätzer nötig
Beispiel: Debugging“Nadel im Heuhaufen”Ansatz: ”Was verhält sich anders?”Vergleich von Programm-Status
Nicht nur für Programmfehler
Beispiel mit > 1,000,000 Prozessen
Einzelner Prozess
Alle Anderen in der Barriere
Node List of N-1 Tasks
Exascale Herausforderungen
AkzeleratorenProgrammierung benötigt neue standardisierte AnsätzeWerkzeugunterstützung!
NetzwerkeNiedrige Latenz und hohe BandbreiteNetzwerktopologien zur Minimierung von „Contention“
Netzwerk Topologien
Quellen: Clusterdesign.org, ANL,
Fujitsu, Wikipedia
Fat-Tree: most cluster interconnects
Torus: BG/L (3D), BG/Q (4.5D), K (6D), Cray XT3 (3D)
Dragonfly: Cray XEHypercube: Intel Paragon, SGI Altix (modified)
Dragonfly Netzwerke
Quelle: Bhatele and Bremer, LLNL
Exascale Herausforderungen
AkzeleratorenProgrammierung benötigt neue standardisierte AnsätzeWerkzeugunterstützung!
NetzwerkeNiedrige Latenz und hohe BandbreiteNetzwerktopologien zur Minimierung von „Contention“
FehlertoleranzGroße Anzahl von Komponenten reduziert MTBFAnstrengungen in Hardware und Software nötig
Energie-Effizienz / Leistungslimits
Energie Effizienz
0
5.000
10.000
15.000
20.000
25.000
30.000
35.000
40.000
45.000
50.000
Ener
gy C
onsu
mpt
ion
in M
Wh
HPC System
LRZ Total
Energie Effizienz
0
5.000
10.000
15.000
20.000
25.000
30.000
35.000
40.000
45.000
50.000
Ener
gy C
onsu
mpt
ion
in M
Wh
HPC System
LRZ Total
0.063 €
0.162 €
€ / K
Wh
Energie Effizienz
Aktives EnergiemanagementBeim System-EntwurfBei der InfrastrukturplanungWährend des Betriebs
0
5.000
10.000
15.000
20.000
25.000
30.000
35.000
40.000
45.000
50.000
Ener
gy C
onsu
mpt
ion
in M
Wh
HPC System
LRZ Total
0.063 €
0.162 €
€ / K
Wh
Energie-Effizienz am LRZ
FührendeRolle bei
HeißwasserKühlung
Energie-Effizienz am LRZ
Nutzung der Hitze
(Heizen, Adsorption Kühlung)
FührendeRolle bei
HeißwasserKühlung
Adsorption Kühlung @ LRZ: CooLMUC-2Foto:Torsten Bloth, Lenovo
• Lenovo NeXtScale Water Cool Technology (WCT)• Eingangstemperatur 30˚C – 50˚C• 384 Rechenknoten (2x 14 core Intel Haswell)• 466 TFlop/s Peak Leistung, #356 auf der Top500 Liste (Juni 2016).
A Holistic Approach Towards Energy Efficiency
FührendeRolle bei
HeißwasserKühlung
Nutzung der Hitze
(Heizen, Adsorption Kühlung)
DetailiertesMonitoring
Was man nicht messen kann, kann man nicht optimieren!
Effic
ienc
y
Von der Infrastruktur bis zum Rechenknoten
Beispiel - Effizienz der Kühlung- Umschalten von
Sommer auf Winter- Früherkennung von
Problemen
Monitoring - Infrastruktur- Scheduler- Anwendungen- Verschiedene Granularität- Große Datenmengen
Änderung in der
Kühlungseffizenz
Wechsel zukalten Wasser
Die „Datacenter Database“
DCDB Pusher
Plugins
User/Admin Interface
REST API
Sensor Cache
Compute nodes [1,..,N] / Infrastructure Nodes
Pusher core
libdcdbDB Interface
DCDB Collect Agent
Sensor Cache
Operations Monitoring
REST API
Management and analytics nodes [1,..,M]
MQTT Server Collect Agent core
http://dcdb.it/Ott, Tafani, Netti, et al.
A Holistic Approach Towards Energy Efficiency
FührendeRolle bei
HeißwasserKühlung
Nutzung der Hitze
(Heizen, Adsorption Kühlung)
DetailiertesMonitoring
DatenAnalyse
Wintermute Analyse Framework
DCDB Pusher
Plugins
User/Admin Interface
REST API
Sensor Cache WintermuteDA Engine
Compute nodes [1,..,N]
Pusher core
libdcdb
DB Interface
DCDB Collect Agent
WintermuteDA Engine
Sensor Cache
Operations Monitoring
REST API
Management and analytics nodes [1,..,M]
MQTT Server Collect Agent core
http://dcdb.it/Ott, Tafani, Netti, et al.
Wintermute Beispiel
Clustering von Knoten VerhaltenStromaufnahmeTemperatur„Idletime“
Durchgeführt auf dem Collect AgentÜber mehrere ZeitfensterErgebnisse in DCDB gespeichert
Entdeckung von Verhaltensgruppenund Anomalien
Ausgabe aus der „Datacenter Database“
DCDB Pusher
Plugins
User/Admin Interface
REST API
Sensor Cache WinternuteDA Engine
Compute nodes [1,..,N]
Pusher core
libdcdbDB Interface
Data Visualisation
Feedback to RM
DCDB Collect Agent
WintermuteDA Engine
Sensor Cache
Operations Monitoring
REST API
Management and analytics nodes [1,..,M]
MQTT Server Collect Agent core
A Holistic Approach Towards Energy Efficiency
FührendeRolle bei
HeißwasserKühlung
Nutzung der Hitze
(Heizen, Adsorption Kühlung)
DetailiertesMonitoring
DatenAnalyse
Energie-bezogenesScheduling
Actives Power/Energie ManagementZentrum spezifische Policy
Power vs. FrequenzAdaptives CappingBenötigt Anreize für Benutzer
Power Management auf allen EbenenNode level Power managementJob level Power managementSystem level Power managementSystem design
Integration in den globalen Resource ManagerSetzen von job-level power limitsKontrolle von Limits
System-levelPower-Mgmt.
Job-levelPower-Mgmt.
Node-levelPower-Mgmt.
KontrolleMessung
Resource M
anager
Policy
System Level
Node Level
Job Level
RM
Policy
App/User
Die PowerStack Initiative
Ziel: hierarchisches System das einebreite Zahl von Szenarien
Neue International Initiative fürGemeinsame TerminologieKombinierbar KomponentenVergleichbare Policies
ArbitrationMonitoring
EmergencyRamping
Power-Skimming
GoalsFeedback
Use Cases
Start: Juni 2018 Seminar im
TUM Science & Study Center Raitenhaslach
Nächste Schallmauer: ExascaleHPC wächst in Bedeutung für Industrie und Wissenschaft
Simulation neben Theorie und ExperimentenNeue Anwendungsgebiete: Big Data und KI
Technische HerausforderungenProgrammierbarkeit neuer HardwareNeue NetzwerkeFehlertoleranzEnergieeffizienz
Erste Systeme in 2021 (?)A21 in ArgonneChina?
Und dann?