AMD hat weitere Details zu seiner Radeon AI PRO R9700 GPU bekannt gegeben und wie sie sich bei KI-Aufgaben im Vergleich zur bestehenden Radeon PRO W7800 schlägt.
AMD bietet mit der RDNA 4-basierten Radeon AI PRO R9700 GPU 4x mehr KI-TOPS und eine 2x höhere KI-Leistungssteigerung für Verbraucher
AMD hat kürzlich seine Software-Suite mit ROCm 7 erweitert, wobei die aktuelle KI-Beschleuniger-Strategie in drei Hauptkategorien skaliert: die Ryzen AI MAX APUs, die auf kleine bis mittelgroße LLMs abzielen, die Radeon AI PRO GPUs, die sich auf Multi-GPU-Edge-Inferenz und kleine bis mittelgroße LLMs konzentrieren, und schließlich die Instinct AI-Beschleuniger, die auf große LLMs für Rack-Skalen-Inferenz und Training abzielen. Während AMD seine MI350-Serie detailliert beschrieben hat, hat das Unternehmen auch weitere KI-Statistiken für seine Radeon AI PRO-Reihe veröffentlicht.
Die AMD Radeon AI PRO R9700 nutzt die Navi 48 GPU, die mit 64 Compute Units oder 4096 Stream-Prozessoren ausgestattet ist. Die GPU verfügt über 128 KI-Beschleuniger und hat eine TBP von bis zu 300W. In Bezug auf den Speicher ist die AMD Radeon AI PRO R9700 mit 32 GB GDDR6-Speicher ausgestattet, der über einen 256-Bit-Bus läuft, und verdoppelt damit im Wesentlichen den VRAM, der auf der 9070 XT vorhanden ist. Weitere von AMD geteilte Leistungsaspekte umfassen die 96 TFLOPs FP16-Compute und 1531 TOPS INT4 (Sparse).
Das Ziel der AMD Radeon AI PRO R9700 GPU ist es, hochwertige KI-Modelle effizient abzuschließen. Deshalb wurde sie mit 32 GB VRAM ausgestattet, was eine optimale Menge für die meisten fortschrittlichen lokalen KI-Workloads ist, wie DeepSeek R1 Distill Qwen 32B Q6, Mistral Small 3.1 24B Instruct 2503 Q8, Flux 1 Schnel und SD 3.5 Medium.
In Bezug auf die Leistung gibt AMD an, dass die Radeon AI PRO R9700 in DeepSeek R1 doppelt so schnell ist wie die Radeon PRO W7800 32 GB GPU, während das Unternehmen auch einige Messungen gegen die RTX 5080 zeigt, die über einen 16 GB VRAM-Puffer verfügt. Die 16 GB VRAM könnten für KI-Modelle, die mehr Speicher benötigen, nicht ausreichen, und deshalb wird die R9700 als bis zu 5x schneller gezeigt.
Bei den Berechnungsmetriken bietet die R9700 47,8 TFLOPs FP32, 191,4 TFLOPs FP16 / BF16, 382,7 TFLOPs FP8, 382,7 TOPs INT8 und 765,5 TOPS INT4 Leistung. Die GPU unterstützt auch Wave Matrix Multiply Accumulate (WMMA)-Anweisungen und strukturierte Sparsity. Mit Sparsity wird die Gesamtleistung der INT4 TOPS 1531 erreichen. Die FP16-Werte sind eine 2x Steigerung gegenüber der Radeon PRO W7800, während die INT8/INT4-Werte eine 4x Erhöhung zeigen.
AMD hebt auch hervor, warum die Unterstützung größerer Modelle entscheidend für bessere Ergebnisse ist. Bei Text-zu-Bild-Anwendungen wird ein 8B-Modell, das auf FP16 läuft, weit bessere Ergebnisse liefern als ein 1B-Modell. In Bezug auf das Schlussfolgern wird ein 32B 6-Bit-Modell eine höhere Genauigkeit liefern als ein 8B 6-Bit-Modell.
AMD zeigt auch die FP16-KI-Leistung in einem Vergleich zwischen der R9700 und der W7800, wobei die neue Variante über 2x Leistungssteigerung in DeepSeek R1 Distill Llama (8B) bietet.
Aber damit endet es nicht; die AMD Radeon AI PRO R9700 kann auch in 4-Wege-Multi-GPU-Konfigurationen auf einer modernen PCIe 5.0-Plattform skaliert werden. Dies ermöglicht es den Nutzern, einen riesigen 128 GB-Pool zu nutzen, der Puffer-Modelle wie Mistral 123B und DeepSeek R1 70 B verarbeiten kann. Diese Modelle können bis zu 112-116 GB VRAM verbrauchen.
Schließlich wird die AMD Radeon AI PRO R9700 GPU ab Juli dieses Jahres bei führenden Partnern wie ASUS, ASRock, Gigabyte, PowerColor, Sapphire, XFX und Yeston erhältlich sein. Die Karte wird ein Dual-Slot-Design mit einem Blower-Kühler haben.
Das ASRock-Modell können Sie unten sehen:
AMD Radeon Pro Workstation-Grafikkarten im Überblick:
Name der Grafikkarte | Radeon AI PRO R9700 | Radeon Pro W7900 | Radeon Pro W7800 | Radeon Pro W6900X | Radeon Pro W6800 | Radeon Pro VII | Radeon Pro W5700X | Radeon Pro W5700 | Radeon Pro WX 9100 | Radeon Pro WX 8200 | Radeon Pro WX 7100 |
---|---|---|---|---|---|---|---|---|---|---|---|
GPU | Navi 48 | Navi 31 | Navi 31 | Navi 21 | Navi 21 | Vega 20 | Navi 10 | Navi 10 | Vega 10 | Vega 10 | Polaris 10 |
Fertigungsprozess | 4nm | 5nm+6nm | 5nm+6nm | 7nm | 7nm | 7nm | 7nm | 7nm | 14nm | 14nm | 14nm |
Recheneinheiten | 64 CU | 96 CU | 70 CU | 80 | 60 | 60 | 40 | 36 | 64 | 56 | 36 |
Stream-Prozessoren | 4096 | 6144 | 4480 | 5120 | 3840 | 3840 | 2560 | 2304 | 4096 | 3584 | 2304 |
Taktfrequenz (Spitze) | Noch festzulegen | ~2.5 GHz | ~2.5 GHz | 2171 MHz | 2320 MHz | 1700 MHz | 2040 MHz | 1930 MHz | 1500 MHz | 1500 MHz | 1243 MHz |
VRAM | 32 GB GDDR6 | 48 GB GDDR6 | 32 GB GDDR6 | 32 GB GDDR6 | 32 GB GDDR6 | 16 GB HBM2 | 16 GB GDDR6 | 8 GB GDDR6 | 16 GB HBM2 | 8 GB HBM2 | 8 GB GDDR5 |
Speicherbandbreite | 640 GB/s | 864 GB/s | 576 GB/s | 512 GB/s | 512 GB/s | 1024 GB/s | 448 GB/s | 448 GB/s | 512 GB/s | 484 GB/s | 224 GB/s |
Speicherbus | 256-bit | 384-bit | 256-bit | 256-bit | 256-bit | 4096-bit | 256-bit | 256-bit | 2048-bit | 2048-bit | 256-bit |
Rechenleistung (FP32) | 48 TFLOPs | 61.3 TFLOPs | 45.2 TFLOPs | 22.23 TFLOPs | 17.82 TFLOPs | 13.1 TFLOPs | 9.5 TFLOPs | 8.89 TFLOPs | 12.3 TFLOPs | 10.8 TFLOPs | 5.7 TFLOPs |
TDP | 300W | 295W | 260W | 300W | 250W | 250W | 240W | 205W | 250W | 230W | 150W |
Preis | Noch festzulegen | $3999 US | $2499 US | $5999 US | $2249 US | $1899 US | $999 US | $799 US | $2199 US | $999 US | $799 US |
Markteinführung | 2025 | 2023 | 2023 | 2021 | 2021 | 2020 | 2019 | 2019 | 2017 | 2018 | 2016 |