Το Amazon SageMaker HyperPod διευκολύνει την εκπαίδευση και τη βελτίωση των LLM
Στο συνέδριο re:Invent, ο βραχίονας
cloud
AWS της Amazon ανακοίνωσε σήμερα την κυκλοφορία του
SageMaker HyperPod
, μια νέα ειδικά σχεδιασμένη υπηρεσία για εκπαίδευση και βελτίωση μοντέλων μεγάλων γλωσσών. Το SageMaker HyperPod είναι πλέον γενικά διαθέσιμο.
Η Amazon έχει ποντάρει εδώ και καιρό
SageMaker
, η υπηρεσία της για την κατασκευή, την εκπαίδευση και την ανάπτυξη μοντέλων μηχανικής μάθησης, ως τη ραχοκοκαλιά της στρατηγικής μηχανικής μάθησης. Τώρα, με την εμφάνιση της γενε
τι
κής τεχνητής νοημοσύνης, ίσως δεν αποτελεί έκπληξη το γεγονός ότι βασίζεται επίσης στο SageMaker ως το βασικό προϊόν για να διευκολύνει τους χρήστες του να εκπαιδεύουν και να τελειοποιούν μεγάλα μοντέλα γλώσσας (LLM).
Συντελεστές εικόνας:
AWS
«Το SageMaker HyperPod σάς δίνει τη δυνατότητα να δημιουργήσετε ένα κατανεμημένο σύμπλεγμα με επιταχυνόμενες περιπτώσεις που είναι βελτιστοποιημένες για αμφισβητούμενη εκπαίδευση», μου είπε ο Ankur Mehrotra, γενικός διευθυντής της AWS για το SageMaker, σε μια συνέντευξη πριν από τη σημερινή ανακοίνωση. «Σας δίνει τα εργαλεία για να διανείμετε αποτελεσματικά μοντέλα και δεδομένα σε όλο το σύμπλεγμα σας — και αυτό επιταχύνει τη διαδικασία εκπαίδευσής σας».
Σημείωσε επίσης ότι το SageMaker HyperPod επιτρέπει στους χρήστες να αποθηκεύουν συχνά σημεία ελέγχου, επιτρέποντάς τους να παύουν, να αναλύουν και να βελτιστοποιούν τη διαδικασία εκπαίδευσης χωρίς να χρειάζεται να ξεκινήσουν από την αρχή. Η υπηρεσία περιλαμβάνει επίσης μια σειρά από χρηματοκιβώτια, έτσι ώστε όταν μια GPU πέφτει για κάποιο λόγο, να μην αποτυγχάνει και ολόκληρη η διαδικασία εκπαίδευσης.
«Για μια ομάδα ML, για παράδειγμα, που ενδιαφέρεται απλώς να εκπαιδεύσει το μοντέλο – γι’ αυτούς, γίνεται σαν μια εμπειρία μηδενικής
επα
φής και το σύμπλεγμα γίνεται κατά κάποιο τρόπο ένα σύμπλεγμα αυτό-θεραπείας», εξήγησε ο Mehrotra. «Συνολικά, αυτές οι δυνατότητες μπορούν να σας βοηθήσουν να εκπαιδεύσετε μοντέλα θεμελίωσης έως και 40 τοις εκατό πιο γρήγορα, κάτι που, αν σκεφτείτε το κόστος και τον χρόνο για την αγορά, είναι μια τεράστια διαφορά».
Συντελεστές εικόνας:
AWS
Οι χρήστες μπορούν να επιλέξουν να εκπαιδεύονται σε προσαρμοσμένα τσιπ Trainium (και τώρα Trainium 2) της Amazon ή παρουσίες GPU που βασίζονται στην Nvidia, συμπεριλαμβανομένων εκείνων που χρησιμοποιούν τον επεξεργαστή H100. Η εταιρεία υπόσχεται ότι το HyperPod μπορεί να επιταχύνει τη διαδικασία εκπαίδευσης έως και 40%.
Η εταιρεία έχει ήδη κάποια εμπειρία με αυτό χρησιμοποιώντας το SageMaker για την κατασκευή LLM. Το μοντέλο Falcon 180B, για παράδειγμα, ήταν
εκπαιδευτεί στο SageMaker
, χρησιμοποιώντας ένα σύμπλεγμα χιλιάδων GPU A100. Η Mehrotra σημείωσε ότι η AWS μπόρεσε να πάρει ό,τι έμαθε από αυτό και την προηγούμενη εμπειρία της με την κλιμάκωση του SageMaker για την κατασκευή του HyperPod.
Συντελεστές εικόνας:
AWS
Ο συνιδρυτής και διευθύνων σύμβουλος της Perplexity AI Aravind Srinivas μου είπε ότι η εταιρεία του απέκτησε έγκαιρη πρόσβαση στην υπηρεσία κατά τη διάρκεια της ιδιωτικής beta της. Σημείωσε ότι η ομάδα του αρχικά ήταν δύσπιστη σχετικά με τη χρήση του AWS για εκπαίδευση και τελειοποίηση των μοντέλων του.
«Δεν δουλέψαμε με το AWS πριν», είπε. “Υπήρχε ένας μύθος – είναι μύθος,
δεν είναι
γεγονός – ότι το AWS δεν έχει εξαιρετική
υποδομή
για εκπαίδευση μεγάλων μοντέλων και προφανώς δεν είχαμε χρόνο να κάνουμε τη δέουσα επιμέλεια, οπότε το πιστέψαμε.” Η ομάδα συνδέθηκε με το AWS, ωστόσο, και οι μηχανικοί εκεί τους ζήτησαν να δοκιμάσουν την υπηρεσία (δωρεάν). Σημείωσε επίσης ότι του ήταν εύκολο να λάβει υποστήριξη από το AWS — και πρόσβαση σε αρκετές GPU για την περίπτωση χρήσης του Perplexity. Προφανώς βοήθησε το γεγονός ότι η ομάδα ήταν ήδη εξοικειωμένη με την εξαγωγή συμπερασμάτων για το AWS.
Ο Srinivas τόνισε επίσης ότι η ομάδα του AWS HyperPod εστίασε έντονα στην επιτάχυνση των διασυνδέσεων που συνδέουν τις κάρτες γραφικών της Nvidia. “Πήγαν και βελτιστοποίησαν τα πρωτόγονα – τα διάφορα πρωτόγονα της Nvidia – που σας επιτρέπουν να επικοινωνείτε αυτές τις κλίσεις και τις παραμέτρους σε διαφορετικούς κόμβους”, εξήγησε.
VIA:
techcrunch.com