Η AMD λανσάρει το Instinct MI300X AI GPU Accelerator, Έως και 60% ταχύτερο από το NVIDIA H100
Η AMD ανακοίνωσε την επίσημη κυκλοφορία του κορυφαίου επιταχυντή AI GPU της, του MI300X, ο οποίος προσφέρει έως και 60% καλύτερη απόδοση από το H100 της
NVIDIA
.
Η AMD έχει επιτέλους την GPU για να αντιμετωπίσει το NVIDIA στο τμήμα AI, το MI300X έως και 60% πιο γρήγορα από το H100
Οι επιταχυντές τεχνητής νοημοσύνης της κατηγορίας AMD Instinct MI300 θα είναι μια άλλη μονάδα παραγωγής ισχύος chiplet, χρησιμοποιώντας προηγμένες τεχνολογίες συσκευασίας από την TSMC. Σήμερα, η AMD όχι μόνο ανακοίνωσε την κυκλοφορία αυτών των τσιπ, αλλά μοιράστηκε τα πρώτα σημεία αναφοράς απόδοσης του MI300X που φαίνονται υπέροχα. Η AMD χρησιμοποίησε για πρώτη φορά τις γενικές προδιαγραφές ως σύγκριση και τις
προσφορές
του επιταχυντή CDNA 3 (έναντι NVIDIA H100):
- 2,4 φορές μεγαλύτερη χωρητικότητα μνήμης
- 1,6Χ υψηλότερο εύρος ζώνης μνήμης
- 1,3X FP8 TFLOPS
- 1,3X FP16 TFLOPS
- Έως 20% ταχύτερα έναντι H100 (Llama 2 70B) σε σύγκριση 1v1
- Έως και 20% ταχύτερα έναντι H100 (FlashAttention 2) σε σύγκριση 1v1
- Έως και 40% ταχύτερα έναντι H100 (Llama 2 70B) σε διακομιστή 8v8
- Έως και 60% ταχύτερα έναντι H100 (Bloom 176B) σε διακομιστή 8v8
Σε γενικές γραμμές LLM Kernel TFLOP, το MI300X προσφέρει έως και 20% υψηλότερη απόδοση σε FlashAttention-2 και Llama 2 70B. Κοιτάζοντας από μια προοπτική πλατφόρμας που συγκρίνει μια λύση 8x MI300X με μια λύση 8X H100, βλέπουμε ένα πολύ μεγαλύτερο κέρδος 40% στο Llama 2 70B και ένα κέρδος 60% στο Bloom 176B.
Η AMD αναφέρει ότι στις προπονητικές επιδόσεις, το MI300X είναι στο ίδιο επίπεδο με τον ανταγωνισμό (H100) και προσφέρει ανταγωνιστική τιμή/απόδοση ενώ λάμπει σε φόρτους εργασίας συμπερασμάτων.
Η κινητήρια δύναμη πίσω από τους πιο πρόσφατους επιταχυντές MI300 είναι το ROCm 6.0. Η στοίβα λογισμικού έχει ενημερωθεί στην πιο πρόσφατη έκδοση με ισχυρά νέα χαρακτηριστικά που περιλαμβάνουν υποστήριξη για διάφορους φόρτους εργασίας AI, όπως μοντέλα Generative AI και Large γλωσσών.
Η νέα στοίβα λογισμικού υποστηρίζει τις πιο πρόσφατες μορφές υπολογιστών όπως FP16, Bf16 και FP8 (συμπεριλαμβανομένου του Sparity). Οι βελτιστοποιήσεις συνδυάζονται για να προσφέρουν έως και 2,6x επιτάχυνση στο vLLM μέσω βελτιστοποιημένων βιβλιοθηκών συμπερασμάτων, 1,4x επιτάχυνση στο HIP Graph μέσω βελτιστοποιημένου χρόνου εκτέλεσης και 1,3x επιτάχυνση Flash Attention μέσω βελτιστοποιημένων πυρήνων. Το ROCm 6 αναμένεται αργότερα αυτό το μήνα μαζί με τους επιταχυντές AI MI300. Θα είναι ενδιαφέρον να δούμε πώς συγκρίνεται το ROCm 6 με την τελευταία έκδοση της στοίβας CUDA της NVIDIA που είναι ο πραγματικός ανταγωνισμός της.
AMD Instinct MI300X – Προκαλώντας την υπεροχή της τεχνητής νοημοσύνης της NVIDIA με CDNA 3 και τεράστια μνήμη
Το AMD Instinct MI300X είναι το τσιπ που θα επισημανθεί περισσότερο αφού στοχεύει στους επιταχυντές Hopper της NVIDIA και Gaudi της Intel στο τμήμα AI. Αυτό το τσιπ έχει σχεδιαστεί αποκλειστικά στην αρχιτεκτονική CDNA 3 και υπάρχουν πολλά πράγματα που συμβαίνουν. Το τσιπ πρόκειται να φιλοξενήσει ένα μείγμα 5nm και 6nm IP, όλα συνδυαζόμενα για να προσφέρουν έως και 153 δισεκατομμύρια τρανζίστορ (MI300X).
Ξεκινώντας με το σχέδιο, ο κύριος παρεμβολέας τοποθετείται με μια παθητική μήτρα που στεγάζει το στρώμα διασύνδεσης χρησιμοποιώντας μια λύση Infinity Fabric 4ης γενιάς. Το interposer περιλαμβάνει συνολικά 28 μήτρες που περιλαμβάνουν οκτώ πακέτα HBM3, 16 εικονικές μήτρες μεταξύ των πακέτων HBM και τέσσερις ενεργές μήτρες και κάθε μία από αυτές τις ενεργές μήτρες λαμβάνει δύο υπολογιστικές μήτρες.
Η μνήμη είναι ένας άλλος τομέας όπου θα δείτε μια τεράστια
αναβάθμιση
με το MI300X να διαθέτει 50% περισσότερη χωρητικότητα HBM3 από τον προκάτοχό του, το MI250X (128 GB). Για να πετύχει μια δεξαμενή μνήμης 192 GB, η AMD εξοπλίζει το MI300X με 8 στοίβες HBM3 και κάθε στοίβα είναι 12-Hi, ενώ ενσωματώνει IC 16 Gb που μας δίνουν χωρητικότητα 2 GB ανά IC ή 24 GB ανά στοίβα.
Η μνήμη θα προσφέρει έως και 5,3 TB/s εύρους ζώνης και 896 GB/s Infinity Fabric Bandwidth. Για σύγκριση, ο επερχόμενος επιταχυντής AI H200 της NVIDIA προσφέρει χωρητικότητα 141 GB, ενώ ο Gaudi 3 από την Intel θα προσφέρει χωρητικότητα 144 GB. Οι μεγάλες δεξαμενές μνήμης έχουν μεγάλη σημασία στα LLM, τα οποία είναι ως επί το πλείστον δεσμευμένα στη μνήμη και η AMD μπορεί να δείξει την ικανότητά της στην τεχνητή νοημοσύνη, πρωτοστατώντας στο τμήμα μνήμης. Για συγκρίσεις:
-
Instinct MI300X –
192 GB HBM3 -
Γκαουντί 3 –
144 GB HBM3 -
H200 –
141 GB HBM3e -
MI300A –
128 GB HBM3 -
MI250X –
128 GB HBM2e -
H100 –
96 GB HBM3 -
Γκαουντί 2 –
96 GB HBM2e

Όσον αφορά την κατανάλωση ενέργειας, το AMD Instinct MI300X βαθμολογείται στα 750W που είναι 50% αύξηση σε σχέση με τα 500W του Instinct MI250X και 50W περισσότερο από το NVIDIA H200.
Μία διαμόρφωση
επιδεικνύεται
είναι η σειρά διακομιστών G593-ZX1/ZX2 της Gigabyte που προσφέρουν έως και 8 επιταχυντές GPU MI300X και δύο επεξεργαστές AMD EPYC 9004. Αυτά τα συστήματα θα είναι εξοπλισμένα με έως και οκτώ τροφοδοτικά 3000W, συνολικής ισχύος 18000W. Η AMD παρουσίασε επίσης τη δική της πλατφόρμα Instinct MI300X, η οποία περιλαμβάνει 8 από αυτά τα τσιπ επιτάχυνσης AI, προσφέροντας ορισμένους σταθερούς αριθμούς στην πλατφόρμα NVIDIA HGX H100. Μερικοί αριθμοί που κοινοποιούνται από την AMD περιλαμβάνουν:
- 2,4 φορές υψηλότερη μνήμη HBM3 (1,5 TB έναντι 640 GB)
- 1,3 φορές περισσότερα υπολογιστικά FLOPS (10,4 PF έναντι 7,9 PF)
- Παρόμοιο αμφίδρομο εύρος ζώνης (896 GB/s έναντι 900 GB/s)
- Παρόμοιο εύρος ζώνης μονού κόμβου (448 GB/s έναντι 450 GB/s)
- Παρόμοιες δυνατότητες δικτύωσης (400 GbE έναντι 400 GbE)
- Παρόμοιο πρωτόκολλο PCIe (PCIe Gen 5 128 GB/s)

Προς το παρόν, η AMD θα πρέπει να γνωρίζει ότι οι ανταγωνιστές της προχωρούν επίσης στην τρέλα της τεχνητής νοημοσύνης με τη NVIDIA να έχει ήδη πειράξει μερικά τεράστια νούμερα για τις GPU της Hopper H200 2024 και τις GPU της Blackwell B100 και η Intel προετοιμάζει τις GPU της Guadi 3 και Falcon Shores για κυκλοφορία στο και τα επόμενα χρόνια. Εταιρείες όπως η Oracle, η
Dell
, η META και η OpenAI ανακοίνωσαν υποστήριξη για τα τσιπ AI Instinct MI300 της AMD στο οικοσύστημά τους.
Ένα πράγμα είναι σίγουρο αυτή τη στιγμή, οι πελάτες τεχνητής νοημοσύνης θα καταβροχθίσουν σχεδόν οτιδήποτε μπορούν να πάρουν και όλοι θα το εκμεταλλευτούν. Αλλά η AMD έχει μια πολύ τρομερή λύση που δεν στοχεύει απλώς να είναι εναλλακτική της NVIDIA αλλά ηγέτης στον τομέα της τεχνητής νοημοσύνης.
AMD Radeon
Instinct Accelerators
| Όνομα επιταχυντή | AMD Instinct MI400 | AMD Instinct MI300 | AMD Instinct MI250X | AMD Instinct MI250 | AMD Instinct MI210 | AMD Instinct MI100 | AMD Radeon Instinct MI60 | AMD Radeon Instinct MI50 | AMD Radeon Instinct MI25 | AMD Radeon Instinct MI8 | AMD Radeon Instinct MI6 |
|---|---|---|---|---|---|---|---|---|---|---|---|
| Αρχιτεκτονική CPU | Zen 5 (APU Exascale) | Zen 4 (APU Exascale) | N/A | N/A | N/A | N/A | N/A | N/A | N/A | N/A | N/A |
| Αρχιτεκτονική GPU | CDNA 4 | Aqua Vanjaram (CDNA 3) | Aldebaran (CDNA 2) | Aldebaran (CDNA 2) | Aldebaran (CDNA 2) | Arcturus (CDNA 1) | Vega 20 | Vega 20 | Vega 10 | Φίτζι XT | Polaris 10 |
| Κόμβος διεργασίας GPU | 4 nm | 5nm+6nm | 6 nm | 6 nm | 6 nm | 7nm FinFET | 7nm FinFET | 7nm FinFET | 14nm FinFET | 28 nm | 14nm FinFET |
| GPU Chiplets | TBD | 8 (MCM) |
2 (MCM) 1 (Per Die) |
2 (MCM) 1 (Per Die) |
2 (MCM) 1 (Per Die) |
1 (Μονολιθικό) | 1 (Μονολιθικό) | 1 (Μονολιθικό) | 1 (Μονολιθικό) | 1 (Μονολιθικό) | 1 (Μονολιθικό) |
| Πυρήνες GPU | TBD | Έως 19.456 | 14.080 | 13.312 | 6656 | 7680 | 4096 | 3840 | 4096 | 4096 | 2304 |
| Ταχύτητα ρολογιού GPU | TBD | TBA | 1700 MHz | 1700 MHz | 1700 MHz | 1500 MHz | 1800 MHz | 1725 MHz | 1500 MHz | 1000 MHz | 1237 MHz |
| FP16 Υπολογισμός | TBD | TBA | 383 ΚΟΡΥΦΑΙΕΣ | 362 ΤΟΠ | 181 ΤΟΠ | 185 TFLOP | 29,5 TFLOP | 26,5 TFLOP | 24,6 TFLOP | 8,2 TFLOP | 5,7 TFLOP |
| FP32 Υπολογισμός | TBD | TBA | 95,7 TFLOP | 90,5 TFLOP | 45,3 TFLOP | 23,1 TFLOP | 14,7 TFLOP | 13,3 TFLOP | 12,3 TFLOP | 8,2 TFLOP | 5,7 TFLOP |
| FP64 Υπολογισμός | TBD | TBA | 47,9 TFLOP | 45,3 TFLOP | 22,6 TFLOP | 11,5 TFLOP | 7,4 TFLOP | 6,6 TFLOP | 768 GFLOP | 512 GFLOP | 384 GFLOP |
| VRAM | TBD | 192 GB HBM3 | 128 GB HBM2e | 128 GB HBM2e | 64 GB HBM2e | 32 GB HBM2 | 32 GB HBM2 | 16 GB HBM2 | 16 GB HBM2 | 4 GB HBM1 | 16 GB GDDR5 |
| Ρολόι μνήμης | TBD | 5,2 Gbps | 3,2 Gbps | 3,2 Gbps | 3,2 Gbps | 1200 MHz | 1000 MHz | 1000 MHz | 945 MHz | 500 MHz | 1750 MHz |
| Λεωφορείο μνήμης | TBD | 8192-bit | 8192-bit | 8192-bit | 4096-bit | Δίαυλος 4096-bit | Δίαυλος 4096-bit | Δίαυλος 4096-bit | Δίαυλος 2048-bit | Δίαυλος 4096-bit | Δίαυλος 256 bit |
| Εύρος ζώνης μνήμης | TBD | 5,3 TB/s | 3,2 TB/s | 3,2 TB/s | 1,6 TB/s | 1,23 TB/s | 1 TB/s | 1 TB/s | 484 GB/s | 512 GB/s | 224 GB/s |
| Form Factor | TBD | ΕΙΜΑΙ | ΕΙΜΑΙ | ΕΙΜΑΙ | Κάρτα διπλής υποδοχής | Διπλή υποδοχή, σε όλο το μήκος | Διπλή υποδοχή, σε όλο το μήκος | Διπλή υποδοχή, σε όλο το μήκος | Διπλή υποδοχή, σε όλο το μήκος | Διπλή υποδοχή, μισό μήκος | Ενιαία υποδοχή, σε όλο το μήκος |
| Ψύξη | TBD | Παθητική Ψύξη | Παθητική Ψύξη | Παθητική Ψύξη | Παθητική Ψύξη | Παθητική Ψύξη | Παθητική Ψύξη | Παθητική Ψύξη | Παθητική Ψύξη | Παθητική Ψύξη | Παθητική Ψύξη |
| TDP (Μέγ.) | TBD | 750 W | 560 W | 500W | 300W | 300W | 300W | 300W | 300W | 175 W | 150W |
VIA:
wccftech.com