Η NVIDIA επανέρχεται στην AMD, ισχυρίζεται ότι η GPU H100 AI προσφέρει 47% ταχύτερη απόδοση από το MI300X με βελτιστοποιημένο λογισμικό
Η NVIDIA έχει
απελευθερώθηκε
ένα νέο σύνολο σημείων αναφοράς για το H100 AI GPU και το σύγκρινε με το MI300X της AMD που παρουσιάστηκε πρόσφατα. Ο σκοπός αυτών των τελευταίων σημείων αναφοράς είναι να δείξουν πώς το H100 προσφέρει ταχύτερες επιδόσεις από τον ανταγωνισμό χρησιμοποιώντας το κατάλληλο λογισμικό, κά
τι
που δεν συνέβαινε κατά την πρόσφατη παρουσίαση του ανταγωνιστή του.
Η NVIDIA τοποθετεί την AMD στο πίσω κάθισμα: Η GPU Hopper H100 ενός έτους προσφέρει 47% ταχύτερη απόδοση έναντι της
AMD MI300X
υπό κατάλληλες συνθήκες συγκριτικής αξιολόγησης
Κατά τη διάρκεια της παρουσίασης “Advancing AI”, η AMD κυκλοφόρησε την GPU Instinct MI300X, η οποία στοχεύει να είναι η αρχή του ταξιδιού της με τεχνητή νοημοσύνη στον τομέα των κέντρων δεδομένων. Η παρουσίαση περιελάμβανε διάφορους αριθμούς και σημεία αναφοράς στα οποία η εταιρεία συνέκρινε το MI300X με την GPU H100 της NVIDIA. Η AMD ισχυρίζεται ότι το MI300X προσφέρει έως και 20% ταχύτερη απόδοση από το H100 όταν συγκρίνετε μια μεμονωμένη GPU και έως και 60% ταχύτερη από το H100 όταν συγκρίνετε έναν διακομιστή 8 GPU. Η NVIDIA ανταποκρίνεται γρήγορα σε αυτά τα σημεία αναφοράς και τόνισε ότι τα αποτελέσματα απέχουν πολύ από την αλήθεια.
Η GPU NVIDIA H100 κυκλοφόρησε το 2022 και έχει δει διάφορες βελτιώσεις από την πλευρά του λογισμικού. Οι πιο πρόσφατες βελτιώσεις του TensorRT-LLM έχουν οδηγήσει σε ακόμη μεγαλύτερη απόδοση σε φόρτους εργασίας ειδικά για τεχνητή νοημοσύνη μαζί με βελτιστοποιήσεις σε επίπεδο πυρήνα. Η NVIDIA δηλώνει ότι όλα αυτά επιτρέπουν στις H100 AI GPU να εκτελούν μοντέλα όπως το Llama 2 70B χρησιμοποιώντας λειτουργίες FP8. Ακολουθούν τα στοιχεία απόδοσης GPU AI στο Llama 2 70B που παρουσίασε η AMD κατά τη διάρκεια της εκδήλωσης:
- MI300X Έως 40% ταχύτερο έναντι H100 (Llama 2 70B) σε διακομιστή 8v8
- MI300X Έως 20% πιο γρήγορο σε σύγκριση με H100 (Llama 2 70B) σε σύγκριση 1v1
Η AMD έτρεξε τους αριθμούς χρησιμοποιώντας τις βελτιστοποιημένες βιβλιοθήκες της στη σουίτα ROCm 6.0 όταν συνέκρινε το Instinct MI300X με το Hopper H100. Ωστόσο, δεν συνέβη το ίδιο για την NVIDIA H100 GPU η οποία δεν δοκιμάστηκε με βελτιστοποιημένο λογισμικό όπως το TensorRT-LLM. Στα σημεία αναφοράς που δημοσιεύει η NVIDIA, η εταιρεία δείχνει την πραγματική μετρημένη απόδοση ενός μεμονωμένου διακομιστή DGX H100 με έως και 8 GPU H100 που εκτελούν το
μοντέλο
Llama 2 70B σε Batch-1.
Υποσημειώσεις:
Οι σιωπηρές αξιώσεις της AMD για το H100 μετρώνται με βάση τη διαμόρφωση που ελήφθη από την υποσημείωση παρουσίασης παρουσίασης της AMD #MI300-38. Χρησιμοποιώντας λογισμικό συμπερασμάτων vLLM v.02.2.2 με σύστημα NVIDIA DGX H100, το ερώτημα Llama 2 70B με μήκος ακολουθίας εισόδου 2.048 και μήκος ακολουθίας εξόδου 128. Ισχυρίστηκαν σχετική απόδοση σε σύγκριση με το DGX H100 με σύστημα 8x GPU MI300X.
Για δεδομένα μετρήσεων NVIDIA, DGX H100 με 8x NVIDIA H100 Tensor Core GPU με 80 GB HBM3 με δημόσια διαθέσιμη NVIDIA TensorRT-LLM, v0.5.0 για παρτίδα 1 και v0.6.1 για μετρήσεις κατωφλίου λανθάνοντος χρόνου. Λεπτομέρειες φόρτου εργασίας όπως η υποσημείωση #MI300-38.
Τα αποτελέσματα δείχνουν ότι σε σύγκριση με αυτό που παρουσίασε η AMD κατά τη διάρκεια της εκδήλωσής της, ο διακομιστής DGX H100 είναι 2 φορές πιο γρήγορος όταν χρησιμοποιεί βελτιστοποιημένες ροές εργασίας λογισμικού. Ο διακομιστής είναι επίσης 47% πιο γρήγορος από τη λύση AMD MI300X 8-GPU.
Το DGX H100 μπορεί να επεξεργαστεί ένα μόνο συμπέρασμα σε 1,7 δευτερόλεπτα χρησιμοποιώντας ένα μέγεθος παρτίδας – με άλλα λόγια, ένα αίτημα συμπερασμάτων τη φορά. Ένα μέγεθος παρτίδας ενός έχει ως αποτέλεσμα τον ταχύτερο δυνατό χρόνο απόκρισης για την εξυπηρέτηση ενός μοντέλου. Για τη βελτιστοποίηση τόσο του χρόνου απόκρισης όσο και της απόδοσης του κέντρου δεδομένων, οι υπηρεσίες cloud ορίζουν έναν σταθερό χρόνο απόκρισης για μια συγκεκριμένη υπηρεσία. Αυτό τους δίνει τη δυνατότητα να συνδυάζουν πολλαπλές αιτήσεις συμπερασμάτων σε μεγαλύτερες «παρτίδες» και να αυξάνουν τα συνολικά συμπεράσματα ανά δευτερόλεπτο του διακομιστή. Τα πρότυπα αναφοράς του κλάδου όπως το MLPerf μετρούν επίσης την απόδοση με αυτήν τη μέτρηση σταθερού χρόνου απόκρισης.
Μικρές ανταλλαγές στο χρόνο απόκρισης μπορούν να αποφέρουν x-factors στον αριθμό των αιτημάτων συμπερασμάτων που μπορεί να επεξεργαστεί ένας διακομιστής σε πραγματικό χρόνο. Χρησιμοποιώντας έναν σταθερό προϋπολογισμό χρόνου απόκρισης 2,5 δευτερολέπτων, ένας διακομιστής DGX H100 8 GPU μπορεί να επεξεργαστεί πάνω από πέντε συμπεράσματα Llama 2 70B ανά δευτερόλεπτο σε σύγκριση με λιγότερα από ένα ανά δευτερόλεπτο με το πρώτο πακέτο.
Η χρήση αυτών των νέων σημείων αναφοράς από τη NVIDIA είναι σωστή με τον τρόπο που η AMD χρησιμοποίησε επίσης βελτιστοποιημένο λογισμικό για να αξιολογήσει την απόδοση των GPU της, οπότε γιατί να μην κάνει το ίδιο κατά τη δοκιμή του υλικού της NVIDIA; Η στοίβα λογισμικού της NVIDIA γύρω από το
οικοσύστημα
CUDA και τώρα η αναδυόμενη αγορά τεχνητής νοημοσύνης είναι ισχυρή και έχει πολλά χρόνια προσπάθειας και ανάπτυξης, ενώ το ROCm 6.0 από την AMD είναι νέο και δεν έχει ακόμη δοκιμαστεί σε πραγματικό σενάριο. Με αυτά τα λόγια, η AMD έχει κάνει
μεγάλο
μερίδιο συμφωνιών με κορυφαίες εταιρείες όπως η Microsoft, η META και άλλες που βλέπουν τις GPU MI300X ως εναλλακτική λύση στις λύσεις NVIDIA AI.
Τα Instinct MI300X και MI300A αναμένεται να αυξηθούν έως το 1ο εξάμηνο του 2024, περίπου την ίδια στιγμή που η NVIDIA θα παρουσιάσει μια ακόμη πιο γρήγορη GPU Hopper H200 ακολουθούμενη από Blackwell B100 το 2ο 2024. Έτσι, φαίνεται ότι ο ανταγωνισμός στον χώρο της τεχνητής νοημοσύνης αναμένεται να γίνει ακόμα πιο θερμαινόμενο.
VIA:
wccftech.com

