Beschreibung der Beschaffung
Die Institute für Ingenieurmathematik und Technik Autonomer Systeme beabsichtigen, einen GPU- Rechencluster im Rahmen der DTEC.bw Projekte SeRANIS und MORE für die Entwicklung und Erforschung von Deep Learning und Optimierungsalgorithmen bei der Beseitigung von Weltraumschrott sowie der Umfelderkennung und Verhaltensentscheidung autonomer Straßenfahrzeuge zu beschaffen. Da bereits CUDA- basierte Software und langjähriges KnowHow im Hinblick auf die Architektur von Nvidia vorhanden ist, benötigt die UniBw M zwingend ein Rechencluster bestehend aus GPU-Modulen, das die Ausführung und Entwicklung von CUDA-basierten Softwarelösungen ermöglicht. Darüber hinaus benötigt die UniBw M ein Storagesystem, das zugleich als ein Dateninterface zum GPU-Rechencluster dient.
GPU-Rechencluster:
Zentrale Anforderungen an den GPU-Rechencluster, bestehend aus vier DGX-A-100-80 Modulen, sind je Modul:
1. Grundlage für das Rechencluster ist eine Kompatibilität der Treiber und der Microarchiterktur der GPU mit CUDA-basierter Software und entsprechenden Bibilotheken.
2. Mindestens Compute Capability 8.0 und Shared Memory pro Streaming Machine (SM) in Höhe von 164 KB.
3. Verfügbarkeit von DRAM im Umfang von mindestens 80 GB je GPU, mit einer Bandbreite von 2 000 GB/s oder höher. Darüber hinaus muss der je Modul zur Verfügung stehende DRAM mindestens 640 GB betragen.
4. Double Precision Support der verfügbaren Tensor Kerne, für hoch genaue Rechenergebnisse, die im wissenschaftlichen Anwendungsbereich unabdingbar sind.
5. Rechenleistung in Single Precision 19,5 Teraflops (TF) und Tensor Float (Single Precision) 312 TF für dünn besetzte Matritzen, sowie Tensor Float (Double Precision) mit 19,5 TF.
6. Duales CPU-on-Board-System mit je 64 Kernen und einem Basistakt von 2,25 GHz, 2x 1,92 TB M.2 NVME Speicher für das Betriebssystem (als RAID-1) sowie 8x TB U.2 NVME Speicher für Zwischenspeicherung von Berechnungsergebenissen und 2 TB RAM.
7. Vollständige Vernetzung der einzelnen Module mit einer Bandbreite von mindestens 100 Gbit/s mittels Infiniband und einem entsprechenden Inifiniband-Switch. Die Infiniband Technologie realisiert mittels des NVLinks der Version 3.0 bereits auf den DGX-Boards die Verbindung zwischen den GPUs. Eine entsprechende Verbindung zum Managementsystem mit dem gleichen Standard ist daher erforderlich, um Konformität in Bandbreite aufrecht zu erhalten.
8. Hardware-Support von 5 Jahren. Dieser muss eine Hardware-Garantie mit Vor-Ort-Austauschservice für kritische Komponenten umfassen.
9. Software-Support für 5 Jahre und Zugriff auf die entsprechenden Nvidia-Entwickler-Repositories,-Tools und Bibliotheken sowie zugehörige Dokumentation.
Storage-System:
Zentrale Anforderungen an das Storage-System:
1. Speichervolumen auf SSD-Basis von mindestens 550 TB (Brutto), verteilt auf 3 Server,
2. Speichervolumen auf HDD-Basis von mindestens 1 792 TB (Brutto), verteilt auf 4 Server Vernetzung,
1. Breitbandige und latenzarme Vernetzung der einzelnen GPU-Modelle aller DGX-Server mit mindestens 100 Gbit/s Infiniband HDR,
2. Verbindung der DGX-Server zu den Storage- und CPU-Servern mit mindestens 200 Gbit/s Infininband HDR,
3. Alle Server müssen über eine separate Netzwerkschnittstelle mit mindestens 10 Gbit/s für die Verbindung zum Hoschuldatennetz verfügen
Montage, Wartung, Support, Administration Zentrale Anforderungen:
1. Installation und Inbetriebanhme des Gesamtsystems vor Ort.
2. Aufrechterhaltung der Aktualität des Softwarestandards durch regelmäßige Updates (u. a. Betriebssystem, Firmware).
3. Der Dienstleister für Wartung / Betrieb muss deutschsprachig sein und über eine langjährige Expertise in der Betreuung und Wartung vergleichbarer Systeme aufweisen.
4. Verfügbarkeit und Erreichbarkeit des Supports spätestens am nächsten Werktag.
5. Management-System für das Scheduling und Deployment von Jobs auf den DGX-A100. Weitere Einzelheiten, insbesondere zu Headnode und CPU-Server, ergeben sich aus der Leistungsbeschreibung.