Η AMD λανσάρει το Instinct MI300X AI GPU Accelerator, Έως και 60% ταχύτερο από το NVIDIA H100

By

Marizas Dimitris

On

Δεκ 6, 2023

Η AMD ανακοίνωσε την επίσημη κυκλοφορία του κορυφαίου επιταχυντή AI GPU της, του MI300X, ο οποίος προσφέρει έως και 60% καλύτερη απόδοση από το H100 της

NVIDIA

.

Η AMD έχει επιτέλους την GPU για να αντιμετωπίσει το NVIDIA στο τμήμα AI, το MI300X έως και 60% πιο γρήγορα από το H100

Οι επιταχυντές τεχνητής νοημοσύνης της κατηγορίας AMD Instinct MI300 θα είναι μια άλλη μονάδα παραγωγής ισχύος chiplet, χρησιμοποιώντας προηγμένες τεχνολογίες συσκευασίας από την TSMC. Σήμερα, η AMD όχι μόνο ανακοίνωσε την κυκλοφορία αυτών των τσιπ, αλλά μοιράστηκε τα πρώτα σημεία αναφοράς απόδοσης του MI300X που φαίνονται υπέροχα. Η AMD χρησιμοποίησε για πρώτη φορά τις γενικές προδιαγραφές ως σύγκριση και τις

προσφορές

του επιταχυντή CDNA 3 (έναντι NVIDIA H100):

2,4 φορές μεγαλύτερη χωρητικότητα μνήμης
1,6Χ υψηλότερο εύρος ζώνης μνήμης
1,3X FP8 TFLOPS
1,3X FP16 TFLOPS
Έως 20% ταχύτερα έναντι H100 (Llama 2 70B) σε σύγκριση 1v1
Έως και 20% ταχύτερα έναντι H100 (FlashAttention 2) σε σύγκριση 1v1
Έως και 40% ταχύτερα έναντι H100 (Llama 2 70B) σε διακομιστή 8v8
Έως και 60% ταχύτερα έναντι H100 (Bloom 176B) σε διακομιστή 8v8

Σε γενικές γραμμές LLM Kernel TFLOP, το MI300X προσφέρει έως και 20% υψηλότερη απόδοση σε FlashAttention-2 και Llama 2 70B. Κοιτάζοντας από μια προοπτική πλατφόρμας που συγκρίνει μια λύση 8x MI300X με μια λύση 8X H100, βλέπουμε ένα πολύ μεγαλύτερο κέρδος 40% στο Llama 2 70B και ένα κέρδος 60% στο Bloom 176B.

Η AMD αναφέρει ότι στις προπονητικές επιδόσεις, το MI300X είναι στο ίδιο επίπεδο με τον ανταγωνισμό (H100) και προσφέρει ανταγωνιστική τιμή/απόδοση ενώ λάμπει σε φόρτους εργασίας συμπερασμάτων.

Η κινητήρια δύναμη πίσω από τους πιο πρόσφατους επιταχυντές MI300 είναι το ROCm 6.0. Η στοίβα λογισμικού έχει ενημερωθεί στην πιο πρόσφατη έκδοση με ισχυρά νέα χαρακτηριστικά που περιλαμβάνουν υποστήριξη για διάφορους φόρτους εργασίας AI, όπως μοντέλα Generative AI και Large γλωσσών.

Η νέα στοίβα λογισμικού υποστηρίζει τις πιο πρόσφατες μορφές υπολογιστών όπως FP16, Bf16 και FP8 (συμπεριλαμβανομένου του Sparity). Οι βελτιστοποιήσεις συνδυάζονται για να προσφέρουν έως και 2,6x επιτάχυνση στο vLLM μέσω βελτιστοποιημένων βιβλιοθηκών συμπερασμάτων, 1,4x επιτάχυνση στο HIP Graph μέσω βελτιστοποιημένου χρόνου εκτέλεσης και 1,3x επιτάχυνση Flash Attention μέσω βελτιστοποιημένων πυρήνων. Το ROCm 6 αναμένεται αργότερα αυτό το μήνα μαζί με τους επιταχυντές AI MI300. Θα είναι ενδιαφέρον να δούμε πώς συγκρίνεται το ROCm 6 με την τελευταία έκδοση της στοίβας CUDA της NVIDIA που είναι ο πραγματικός ανταγωνισμός της.

AMD Instinct MI300X – Προκαλώντας την υπεροχή της τεχνητής νοημοσύνης της NVIDIA με CDNA 3 και τεράστια μνήμη

Το AMD Instinct MI300X είναι το τσιπ που θα επισημανθεί περισσότερο αφού στοχεύει στους επιταχυντές Hopper της NVIDIA και Gaudi της Intel στο τμήμα AI. Αυτό το τσιπ έχει σχεδιαστεί αποκλειστικά στην αρχιτεκτονική CDNA 3 και υπάρχουν πολλά πράγματα που συμβαίνουν. Το τσιπ πρόκειται να φιλοξενήσει ένα μείγμα 5nm και 6nm IP, όλα συνδυαζόμενα για να προσφέρουν έως και 153 δισεκατομμύρια τρανζίστορ (MI300X).

Η AMD λανσάρει το Instinct MI300X AI GPU Accelerator, Έως και 60% ταχύτερο από το NVIDIA H100, Η AMD λανσάρει το Instinct MI300X AI GPU Accelerator, Έως και 60% ταχύτερο από το NVIDIA H100, TechWar.gr — AMD Instinct MI300X Accelerator.

Ξεκινώντας με το σχέδιο, ο κύριος παρεμβολέας τοποθετείται με μια παθητική μήτρα που στεγάζει το στρώμα διασύνδεσης χρησιμοποιώντας μια λύση Infinity Fabric 4ης γενιάς. Το interposer περιλαμβάνει συνολικά 28 μήτρες που περιλαμβάνουν οκτώ πακέτα HBM3, 16 εικονικές μήτρες μεταξύ των πακέτων HBM και τέσσερις ενεργές μήτρες και κάθε μία από αυτές τις ενεργές μήτρες λαμβάνει δύο υπολογιστικές μήτρες.

Η μνήμη είναι ένας άλλος τομέας όπου θα δείτε μια τεράστια

αναβάθμιση

με το MI300X να διαθέτει 50% περισσότερη χωρητικότητα HBM3 από τον προκάτοχό του, το MI250X (128 GB). Για να πετύχει μια δεξαμενή μνήμης 192 GB, η AMD εξοπλίζει το MI300X με 8 στοίβες HBM3 και κάθε στοίβα είναι 12-Hi, ενώ ενσωματώνει IC 16 Gb που μας δίνουν χωρητικότητα 2 GB ανά IC ή 24 GB ανά στοίβα.

Η μνήμη θα προσφέρει έως και 5,3 TB/s εύρους ζώνης και 896 GB/s Infinity Fabric Bandwidth. Για σύγκριση, ο επερχόμενος επιταχυντής AI H200 της NVIDIA προσφέρει χωρητικότητα 141 GB, ενώ ο Gaudi 3 από την Intel θα προσφέρει χωρητικότητα 144 GB. Οι μεγάλες δεξαμενές μνήμης έχουν μεγάλη σημασία στα LLM, τα οποία είναι ως επί το πλείστον δεσμευμένα στη μνήμη και η AMD μπορεί να δείξει την ικανότητά της στην τεχνητή νοημοσύνη, πρωτοστατώντας στο τμήμα μνήμης. Για συγκρίσεις:

Instinct MI300X –

192 GB HBM3
Γκαουντί 3 –

144 GB HBM3
H200 –

141 GB HBM3e
MI300A –

128 GB HBM3
MI250X –

128 GB HBM2e
H100 –

96 GB HBM3
Γκαουντί 2 –

96 GB HBM2e

Όσον αφορά την κατανάλωση ενέργειας, το AMD Instinct MI300X βαθμολογείται στα 750W που είναι 50% αύξηση σε σχέση με τα 500W του Instinct MI250X και 50W περισσότερο από το NVIDIA H200.

Μία διαμόρφωση

επιδεικνύεται

είναι η σειρά διακομιστών G593-ZX1/ZX2 της Gigabyte που προσφέρουν έως και 8 επιταχυντές GPU MI300X και δύο επεξεργαστές AMD EPYC 9004. Αυτά τα συστήματα θα είναι εξοπλισμένα με έως και οκτώ τροφοδοτικά 3000W, συνολικής ισχύος 18000W. Η AMD παρουσίασε επίσης τη δική της πλατφόρμα Instinct MI300X, η οποία περιλαμβάνει 8 από αυτά τα τσιπ επιτάχυνσης AI, προσφέροντας ορισμένους σταθερούς αριθμούς στην πλατφόρμα NVIDIA HGX H100. Μερικοί αριθμοί που κοινοποιούνται από την AMD περιλαμβάνουν:

2,4 φορές υψηλότερη μνήμη HBM3 (1,5 TB έναντι 640 GB)
1,3 φορές περισσότερα υπολογιστικά FLOPS (10,4 PF έναντι 7,9 PF)
Παρόμοιο αμφίδρομο εύρος ζώνης (896 GB/s έναντι 900 GB/s)
Παρόμοιο εύρος ζώνης μονού κόμβου (448 GB/s έναντι 450 GB/s)
Παρόμοιες δυνατότητες δικτύωσης (400 GbE έναντι 400 GbE)
Παρόμοιο πρωτόκολλο PCIe (PCIe Gen 5 128 GB/s)

Προς το παρόν, η AMD θα πρέπει να γνωρίζει ότι οι ανταγωνιστές της προχωρούν επίσης στην τρέλα της τεχνητής νοημοσύνης με τη NVIDIA να έχει ήδη πειράξει μερικά τεράστια νούμερα για τις GPU της Hopper H200 2024 και τις GPU της Blackwell B100 και η Intel προετοιμάζει τις GPU της Guadi 3 και Falcon Shores για κυκλοφορία στο και τα επόμενα χρόνια. Εταιρείες όπως η Oracle, η

Dell

, η META και η OpenAI ανακοίνωσαν υποστήριξη για τα τσιπ AI Instinct MI300 της AMD στο οικοσύστημά τους.

Ένα πράγμα είναι σίγουρο αυτή τη στιγμή, οι πελάτες τεχνητής νοημοσύνης θα καταβροχθίσουν σχεδόν οτιδήποτε μπορούν να πάρουν και όλοι θα το εκμεταλλευτούν. Αλλά η AMD έχει μια πολύ τρομερή λύση που δεν στοχεύει απλώς να είναι εναλλακτική της NVIDIA αλλά ηγέτης στον τομέα της τεχνητής νοημοσύνης.

AMD Radeon

Instinct Accelerators

Όνομα επιταχυντή	AMD Instinct MI400	AMD Instinct MI300	AMD Instinct MI250X	AMD Instinct MI250	AMD Instinct MI210	AMD Instinct MI100	AMD Radeon Instinct MI60	AMD Radeon Instinct MI50	AMD Radeon Instinct MI25	AMD Radeon Instinct MI8	AMD Radeon Instinct MI6
Αρχιτεκτονική CPU	Zen 5 (APU Exascale)	Zen 4 (APU Exascale)	N/A	N/A	N/A	N/A	N/A	N/A	N/A	N/A	N/A
Αρχιτεκτονική GPU	CDNA 4	Aqua Vanjaram (CDNA 3)	Aldebaran (CDNA 2)	Aldebaran (CDNA 2)	Aldebaran (CDNA 2)	Arcturus (CDNA 1)	Vega 20	Vega 20	Vega 10	Φίτζι XT	Polaris 10
Κόμβος διεργασίας GPU	4 nm	5nm+6nm	6 nm	6 nm	6 nm	7nm FinFET	7nm FinFET	7nm FinFET	14nm FinFET	28 nm	14nm FinFET
GPU Chiplets	TBD	8 (MCM)	2 (MCM) 1 (Per Die)	2 (MCM) 1 (Per Die)	2 (MCM) 1 (Per Die)	1 (Μονολιθικό)	1 (Μονολιθικό)	1 (Μονολιθικό)	1 (Μονολιθικό)	1 (Μονολιθικό)	1 (Μονολιθικό)
Πυρήνες GPU	TBD	Έως 19.456	14.080	13.312	6656	7680	4096	3840	4096	4096	2304
Ταχύτητα ρολογιού GPU	TBD	TBA	1700 MHz	1700 MHz	1700 MHz	1500 MHz	1800 MHz	1725 MHz	1500 MHz	1000 MHz	1237 MHz
FP16 Υπολογισμός	TBD	TBA	383 ΚΟΡΥΦΑΙΕΣ	362 ΤΟΠ	181 ΤΟΠ	185 TFLOP	29,5 TFLOP	26,5 TFLOP	24,6 TFLOP	8,2 TFLOP	5,7 TFLOP
FP32 Υπολογισμός	TBD	TBA	95,7 TFLOP	90,5 TFLOP	45,3 TFLOP	23,1 TFLOP	14,7 TFLOP	13,3 TFLOP	12,3 TFLOP	8,2 TFLOP	5,7 TFLOP
FP64 Υπολογισμός	TBD	TBA	47,9 TFLOP	45,3 TFLOP	22,6 TFLOP	11,5 TFLOP	7,4 TFLOP	6,6 TFLOP	768 GFLOP	512 GFLOP	384 GFLOP
VRAM	TBD	192 GB HBM3	128 GB HBM2e	128 GB HBM2e	64 GB HBM2e	32 GB HBM2	32 GB HBM2	16 GB HBM2	16 GB HBM2	4 GB HBM1	16 GB GDDR5
Ρολόι μνήμης	TBD	5,2 Gbps	3,2 Gbps	3,2 Gbps	3,2 Gbps	1200 MHz	1000 MHz	1000 MHz	945 MHz	500 MHz	1750 MHz
Λεωφορείο μνήμης	TBD	8192-bit	8192-bit	8192-bit	4096-bit	Δίαυλος 4096-bit	Δίαυλος 4096-bit	Δίαυλος 4096-bit	Δίαυλος 2048-bit	Δίαυλος 4096-bit	Δίαυλος 256 bit
Εύρος ζώνης μνήμης	TBD	5,3 TB/s	3,2 TB/s	3,2 TB/s	1,6 TB/s	1,23 TB/s	1 TB/s	1 TB/s	484 GB/s	512 GB/s	224 GB/s
Form Factor	TBD	ΕΙΜΑΙ	ΕΙΜΑΙ	ΕΙΜΑΙ	Κάρτα διπλής υποδοχής	Διπλή υποδοχή, σε όλο το μήκος	Διπλή υποδοχή, σε όλο το μήκος	Διπλή υποδοχή, σε όλο το μήκος	Διπλή υποδοχή, σε όλο το μήκος	Διπλή υποδοχή, μισό μήκος	Ενιαία υποδοχή, σε όλο το μήκος
Ψύξη	TBD	Παθητική Ψύξη	Παθητική Ψύξη	Παθητική Ψύξη	Παθητική Ψύξη	Παθητική Ψύξη	Παθητική Ψύξη	Παθητική Ψύξη	Παθητική Ψύξη	Παθητική Ψύξη	Παθητική Ψύξη
TDP (Μέγ.)	TBD	750 W	560 W	500W	300W	300W	300W	300W	300W	175 W	150W