In diesem (ersten) Blogpost möchte ich von meinen ersten Erfahrungen mit der NVIDIA DGX Spark im Gewand der Lenovo ThinkStation PGX als Entwicklungsplattform für KI berichten.

Für alle, die im Kontext von KI-Entwicklung arbeiten, wächst der Bedarf an zugänglicher und leistungsstarker Hardware stetig. Obwohl Cloud-Lösungen weit verbreitet sind, ist die Möglichkeit, große Modelle lokal zu entwickeln, zu testen und auszuführen, entscheidend für Entwicklung, Forschung und natürlich für den Datenschutz. NVIDIA hat diesen Bedarf (insbesondere für Forschung und Entwicklung) erkannt und mit ihrem neuen DGX Spark versucht, ein Stück Supercomputer-Leistung auf den Schreibtisch zu bringen.

Als großer Enthusiast für lokale KI konnte ich dem Drang nicht widerstehen, entsprechende Hardware selbst in die Hände zu nehmen – und zwar in Form der Lenovo ThinkStation PGX (aufgrund von Preis und Verfügbarkeit), die das identische Mainboard  nutzt – und teile hier meine ersten Eindrücke.

Lieferumfang der ThinkStation PGX

Der NVIDIA Spark DGX ist als Mini-PC ausgelegt, dementsprechend wird die Variante von Lenovo auch in einem vergleichsweise kleinen Karton geliefert. Der Inhalt ist auch überschaubar, aber vollkommen ausreichend:

  • Lenovo ThinkStation PGX Haupteinheit
  • USB Netzteil (240 Watt)
  • 2x USB-C nach USB-A Adapterkabel
  • Kurzanleitung
Lenovo ThinkStation PGX
Lieferumfang der Lenovo ThinkStation PGX

Das USB Netzteil ist mit 240 Watt ungewöhnlich leistungsfähig dimensioniert, und auch entsprechend ein Stück größer als gewöhnliche USB Netzteile.

Was ist der NVIDIA DGX Spark?

Der DGX Spark ist kein typischer Mini-PC. Er basiert auf dem NVIDIA GB10 Superchip, einem ARM-basierten System-on-a-Chip, der speziell für KI-Workloads entwickelt wurde. Allein durch den Umstand, dass die CPU eben nicht kompatibel zu x86 ist und auch kein Windows auf dem PC läuft, wird klar, dass die Zielgruppe eher Entwickler sind.

Die wesentlichen Besonderheiten sind aber natürlich die integrierte GPU und der uniforme Speicher. Dies ist keine umfunktionierte Gaming-GPU, sondern eine eigens entwickelte Plattform für maschinelles Lernen, was man sofort merkt. Das Hauptverkaufsargument ist ein riesiger, kohärenter und unified Systemspeicher von 128 GB. Dies ermöglicht die Arbeit mit KI-Modellen mit bis zu 200 Milliarden Parametern direkt auf dem Desktop – ein deutlicher Sprung gegenüber den Speicherbeschränkungen herkömmlicher Grafikkarten mit 16GB, 24GB oder 32GB. Für diejenigen, die noch mehr Kapazität benötigen, ermöglicht NVIDIA ConnectX Networking die Kopplung von zwei Spark DGX-Systemen, um Modelle mit bis zu 405 Milliarden Parametern zu verarbeiten.

Fotografie einer Lenovo ThinkStation PGX

Im Inneren des GB10 Superchips

Der GB10 Chip vereinigt eine leistungsfähige GPU und ARM CPU Kerne. Er verfügt über eine 20-Kern-CPU-Konfiguration – 10 Cortex-X925 Performance-Kerne und 10 Cortex-A725 Efficiency-Kerne. In Kombination mit 128 GB LPDDR5X RAM (256-Bit-Bus, 273,2 GB/s Bandbreite) bietet die CPU eine solide Grundlage. Aber die wahre Leistung liegt eben in der integrierten GPU: 6.144 Shader Units, 384 Tensor Cores (5. Generation) und 48 Raytracing Cores.

Hier eine kurze Zusammenfassung der theoretischen Leistungszahlen:

  • Speicherbandbreite: 273,2 GB/s
  • Shader Cores: 6.144
  • Tensor Cores: 384
  • FP16 (Half): 29,71 TFLOPS
  • FP32 (Float): 29,71 TFLOPS
  • FP64 (Double): 464,3 GFLOPS

Diese Spezifikationen positionieren den GB10 in einer interessanten Vergleichslage zur RTX-Reihe: Während der GB10 eine deutlich geringere Speicherbandbreite als selbst eine RTX 5060 aufweist, entspricht die Anzahl der Shader Cores denen einer RTX 5070 und die Anzahl der Tensor Cores übertrifft sogar die einer RTX 5080. Dies zeigt deutlich, dass dieser Chip speziell für die Ausführung von KI-Modellen entwickelt wurde.

Darüber hinaus bietet der Spark DGX, obwohl er mit einer NVIDIA RTX 5080 in Bezug auf die reine Rechenleistung nicht konkurrieren kann, eine einzigartige Kombination aus Leistung und – entscheidend – Speicher. Die 128 GB vereinheitlichten Speicher sind das Besondere, insbesondere bei der Arbeit mit immer größeren KI-Modellen.

Spark DGX

RTX 5060

RTX 5060 Ti 16GB

RTX 5070

RTX 5070 Ti

RTX 5080

RTX 5090

Chip

GB10 / GB20B

GB206

GB206

GB205

GB203

GB203

GB202

Base/Boost Clock

1665 MHz / 2418 MHz

2280 MHz / 2497 MHz

2407 MHz / 2572 MHz

2325 MHz / 2512 MHz

2295 MHz / 2452 MHz

2295 MHz / 2617 MHz

2017 MHz / 2407 MHz

Memory clock

1067 MHz

1750 MHz

1750 MHz

1750 MHz

1750 MHz

1875 MHz

1750 MHz

RAM

128GB

8 GB GDDR7

16 GB GDDR7

12 GB GDDR7

16 GB GDDR7

16 GB GDDR7

32 GB GDDR7

Bus Width

256 bit

128 bit

128 bit

192 bit

256 bit

256 bit

512 bit

Shader Managers (SMs)

48

30

36

48

70

84

170

Shader Cores

6.144

3.840

4.608

6.144

8.960

10.752

21.760

Texture Mapping Units

384

120

144

192

280

336

680

ROPs

48

48

48

80

96

112

176

Raytracing Cores

48

30

36

48

70

84

170

Tensor Cores

384

120

144

192

280

336

680

L1 cache per SM

128 KB

128 KB

128 KB

128 KB

128 KB

128 KB

128 KB

L2 cache

50 MB

32 MB

32 MB

48 MB

48 MB

64 MB

96 MB

Leistungspositionierung & Preisgestaltung

n der Praxis liegt die theoretische Spitzenleistung der GPU knapp unterhalb der RTX 5070, wobei die Speicherbandbreite allerdings deutlich geringer ist (leider). Die alleinige Betrachtung der GPU-Leistung verfehlt jedoch den Punkt. Der Spark DGX tauscht etwas GPU-Durchsatz gegen eine riesige Speicherkapazität. Mit rund 3.500 EUR ist er preislich wettbewerbsfähig mit einem High-End-Desktop-PC. Es handelt sich jedoch um eine andere Art von Maschine. Dies ist kein Allzweckgerät, sondern eine dedizierte KI-Workstation für Entwicklung und Forschung.

Spark DGX

RTX 5060

RTX 5060 Ti 16GB

RTX 5070

RTX 5070 Ti

RTX 5080

RTX 5090

Chip

GB10 / GB20B

GB206

GB206

GB205

GB203

GB203

GB202

RAM

128GB

8 GB GDDR7

16 GB GDDR7

12 GB GDDR7

16 GB GDDR7

16 GB GDDR7

32 GB GDDR7

Memory Bandwidth

273.2 GB/s

448.0 GB/s

448.0 GB/s

672.0 GB/s

896.0 GB/s

960.0 GB/s

1,79 TB/s

Pixel Rate

116.1 GPixel/s

119.9 GPixel/s

123.5 GPixel/s

201.0 GPixel/s

235.4 GPixel/s

293.1 GPixel/s

423.6 GPixel/s

Texture Rate

928.5 GTexel/s

299.6 GTexel/s

370.4 GTexel/s

482.3 GTexel/s

686.6 GTexel/s

879.3 GTexel/s

1,636.8 GTexel/s

FP16 (half)

29.71 TFLOPS

19.18 TFLOPS

23.70 TFLOPS

30.87 TFLOPS

43.94 TFLOPS

56.28 TFLOPS

104.8 TFLOPS

FP32 (float)

29.71 TFLOPS

19.18 TFLOPS

23.70 TFLOPS

30.87 TFLOPS

43.94 TFLOPS

56.28 TFLOPS

104.8 TFLOPS

FP64 (double)

464.3 GFLOPS

299.6 GFLOPS

370.4 GFLOPS

482.3 GFLOPS

686.6 GFLOPS

879.3 GFLOPS

1.637 TFLOPS

AI TOPS

ca 1000 AI TOPS

614 AI TOPS

759 AI TOPS

988 AI TOPS

1406 AI TOPS

1801 AI TOPS

3352 AI TOPS

Für wen ist der DGX Spark geeignet?

Wofür der Spark DGX ideal ist

  • KI-Forscher: Lokales Fine-Tuning von LLMs, Experimentieren mit verschiedenen Architekturen und schnelles Prototyping.
  • Lokale LLM-Inferenz: Ausführen von LLMs, die die Speicherkapazität typischer Grafikkarten übersteigen. Dies ermöglicht eine privatere und kontrollierbarere Inferenz.
  • KI-Workstations: Bereitstellung einer leistungsstarken, dedizierten KI-Entwicklungsumgebung ohne Abhängigkeit von Cloud-Diensten.

Allerdings gibt es aufgrund der (für GPUs) eher niedrigen Speicherbandbreite auch Grenzen. Man darf gerade bei Inferenzaufgaben nicht Latenzen und Durchsatz erwarten, die z.B. in der Cloud angeboten werden. Bei kleinen Modellen sind dann auf Grafikkarten (deutlich) schneller, sofern diese komplett in den VRAM der GPU passen.

Wofür der Spark DGX ungeeignet ist

Zunächst einmal ist der NVIDIA Spark DGX eben mit einer ARM CPU und nicht mit einer x86 CPU wie von Intel oder AMD ausgestattet. Damit läuft eben nur Software, die für die ARM CPUs kompiliert worden ist. Im Linux-Universum ist das vermutlich keine große Einschränkung mehr, dank der Verbreitung von Raspberry PI und ARM Servern gibt es mittlerweile eine Menge an Software schon fertig kompiliert für ARM.

Nur eben Windows läuft auf dem Zwerg überhaupt nicht. Und damit ist der DGX Spark zum Spielen eher ungeeignet.

Erste Eindrücke: Die Hardware

Die Lenovo ThinkStation PGX ist technisch identische zum NVIDIA Spark DGX. Das Gerät ist bemerkenswert kompakt – eine kleine, schmucklose Box.

Fotografie der Vorderseite einer Lenovo ThinkStation PGX

Alle Anschlüsse befinden sich auf der Rückseite:

  • 1x HDMI
  • 1x 10Gig Ethernet
  • 2x 200G Mellanox X7 (Netzwerkanschlüsse)
  • 3x USB-C
  • 1x USB-C (Stromversorgung)
Fotografie einer Lenovo ThinkStation PGX - Rückseite

Der Rechner ist sehr minimalistisch gestaltet, und liegt damit im Trend der Zeit. Es gibt keine Frontanschlüsse und – etwas überraschend – keine Betriebsanzeige. Eine Betriebsanzeige wäre eine nette Ergänzung für den Benutzerkomfort gewesen.

Das Beeindruckendste ist der sehr geringe Geräuschpegel. Bei geringer Belastung ist das System flüsterleise, erst unter anhaltender GPU-Last (Ausführen von Ollama und ComfyUI zum Testen) ist der Lüfter ein wenig zu hören. Die Kühlungslösung ist offensichtlich sehr effektiv.

Die Software: DGX OS

Der DGX Spark wird mit einem speziellen Betriebssystem ausgeliefert,  DGX OS, das im Wesentlichen Ubuntu 24.04 mit vorinstallierten NVIDIA-Treibern und -Software ist. Die Einrichtung verlief fast reibungslos, wobei das einzige Ärgernis die Insistenz des Betriebssystems auf eine Verbindung über WLAN war, obwohl ich ein Ethernet-Kabel angeschlossen hatte.

Sobald ich das Problem durch den Aufbau einer WLAN Verbindung umgangen habe, war das System schnell einsatzbereit.

Lenovo ThinkStation PGX

Nach der Anmeldung findet mit sich in einem Ubuntu-typischen aufgeräumtem GNOME Desktop wieder. Dank der mittlerweile recht guten Unterstützung der ARM Architektur stehen auch die meisten bekannten Anwendungen zur Verfügung (wie Firefox und Thunderbird) oder können auf bekanntem Weg installiert werden (snap oder apt).

Die vorinstallierten Treiber und zusätzlichen NVIDIA-Pakete (z. B. Unterstützung für Docker-Container, die auf die GPU zugreifen) sparen einiges an Zeit, man kann also recht schnell mit der eigentlichen Arbeit loslegen.

DGX OS Desktop

Erstes Fazit und nächste Schritte

Der NVIDIA DGX Spark (wie er in der Lenovo ThinkStation PGX verkörpert wird) ist ein faszinierendes Stück Hardware. Er ist kein Ersatz für einen High-End-Gaming-PC oder einen Serverpark, sondern besetzt eine spezielle aber interessante Nische. Es ist eine leistungsstarke, leise und überraschend kompakte KI-Workstation, die die Entwicklung großer Modelle und die lokale Inferenz für ein breiteres Publikum zugänglich macht.

In den nächsten Beiträgen werde ich detailliertere Leistungsbenchmarks teilen und bestimmte Anwendungsfälle untersuchen, einschließlich LLM-Inferenzgeschwindigkeiten und Fine-Tuning-Experimente.

Modelle und Verfügbarkeit

Verschiedene Hersteller bieten NVIDIAs Workstation an. Die Unterschiedlichen Angebote unterscheiden sich primär im äußeren Erscheiunungsbild und ggf im Support. Im Inneren werkelt wohl immer der gleich Chip und das gleiche Mainboard. Vermutlich sind sogar die Kühllösungn identisch.

Allerdings sind nicht alle Modelle insbesondere in Deutschland erhältlich. Das war auch der Grund, weshalb ich mich für die Lenovo ThinkStation PGX entschieden hatte.

Acer Veriton GN100 AI Mini Workstation

ASUS Ascent GX10

;

Dell Pro Max with GB10 FCM1253

GIGABYTE AI TOP ATOM

HP ZGX Nano G1n AI Station

;

Lenovo ThinkStation PGX

;

MSI EdgeXpert

NVIDIA DGX Spark

PNY DGX Spark

Referenzen

Die Hauptspezifikationen sind von NVIDIA übernommen:

Einige weiteren Spezifikationen sind der Webseite TechPowerUp entnommen:

Kaya Kupferschmidt

Author Kaya Kupferschmidt

Kaya Kupferschmidt ist ein erfahrener freiberuflicher Data Architect, Data Engineer und Data Scientist. Seit 2005 beschäftigt er sich mit Daten und hat einen Doktortitel in Mathematik. Seine Expertise liegt in der Entwicklung und Implementierung robuster Datenlösungen, wobei er sich besonders für Big Data, Machine Learning und KI begeistert. Kaya verfügt über breites technologisches Wissen und setzt dabei bevorzugt auf Open-Source-Technologien.

Mehr Artikel von Kaya Kupferschmidt

Hinterlasse einen Kommentar