Οι μετασχηματιστές διάχυσης: Το μυστικό πίσω από το Sora του OpenAI και η εξέλιξη του GenAI
Το
Sora
του
OpenAI, το οποίο μπορεί να δημιουργήσει βίντεο και διαδραστικά τρισδιάστατα περιβάλλοντα εν κινήσει, είναι μια αξιοσημείωτη επίδειξη της αιχμής στο GenAI — ένα καλό ορόσημο.
Αλλά περιέργως, μια από τις καινοτομίες που οδήγησαν σε αυτό, μια αρχιτεκτονική μοντέλου AI, γνωστή ως μετασχηματιστής διάχυσης,
έφτασε
στην ερευνητική σκηνή AI πριν από χρόνια.
Ο μετασχηματιστής διάχυσης, ο οποίος τροφοδοτεί επίσης τη νεότερη γεννήτρια εικόνας Stability AI
startup
AI, Stable Diffusion 3.0, φαίνεται έτοιμος να μεταμορφώσει το πεδίο GenAI επιτρέποντας στα μοντέλα GenAI να κλιμακωθούν πέρα από αυτό που ήταν προηγουμένως δυνατό.
Ο Saining Xie, καθηγητής επιστήμης υπολογιστών στο NYU, ξεκίνησε το ερευνητικό έργο που γέννησε τον μετασχηματιστή διάχυσης τον Ιούνιο του 2022. Με τον William Peebles, τον καθοδηγητή του ενώ ο Peebles ασκούσε πρακτική στο ερευνητικό εργαστήριο AI της Meta και τώρα ο συνεπικεφαλής του Sora στο OpenAI, Xie συνδύασε δύο έννοιες στη μηχανική μάθηση —
διάχυση
και το
μετασχηματιστής
— για τη δημιουργία του μετασχηματιστή διάχυσης.
Οι περισσότερες σύγχρονες γεννήτριες πολυμέσων που τροφοδοτούνται με AI, συμπεριλαμβανομένου του DALL-E 3 του OpenAI, βασίζονται σε μια διαδικασία που ονομάζεται διάχυση για την έξοδο εικόνων, βίντεο, ομιλίας, μουσικής, τρισδιάστατων ματιών, έργων τέχνης και πολλά άλλα.
Δεν είναι η πιο διαισθητική ιδέα, αλλά βασικά, ο θόρυβος προστίθεται σιγά σιγά σε ένα κομμάτι μέσου – ας πούμε μια εικόνα – μέχρι να γίνει αγνώριστο. Αυτό επαναλαμβάνεται για τη δημιουργία ενός συνόλου δεδομένων θορυβωδών μέσων. Όταν ένα μοντέλο διάχυσης εκπαιδεύεται σε αυτό, μαθαίνει πώς να αφαιρεί σταδιακά τον θόρυβο, πλησιάζοντας, βήμα προς βήμα, σε ένα κομμάτι μέσου εξόδου στόχου (π.χ. μια νέα εικόνα).
Τα μοντέλα διάχυσης έχουν συνήθως μια «ραχοκοκαλιά» ή κινητήρα, που ονομάζεται U-Net. Η ραχοκοκαλιά του U-Net μαθαίνει να υπολογίζει τον θόρυβο που πρέπει να αφαιρεθεί — και το κάνει καλά. Αλλά τα U-Nets είναι πολύπλοκα, με ειδικά σχεδιασμένες μονάδες που μπορούν να επιβραδύνουν δραματικά τον αγωγό διάχυσης.
Ευτυχώς, οι μετασχηματιστές μπορούν να αντικαταστήσουν τα U-Nets — και να προσφέρουν ώθηση απόδοσης και απόδοσης στη διαδικασία.
Ένα βίντεο που δημιουργήθηκε από το Sora.
Οι μετασχηματιστές είναι η αρχιτεκτονική επιλογής για πολύπλοκες εργασίες συλλογισμού, τροφοδοτώντας μοντέλα όπως τα GPT-4, Gemini και ChatGPT. Έχουν πολλά μοναδικά χαρακτηριστικά, αλλά το καθοριστικό χαρακτηριστικό των μετασχηματιστών είναι ο «
μηχανισμός
προσοχής» τους. Για κάθε κομμάτι δεδομένων εισόδου (στην περίπτωση διάχυσης, θορύβου εικόνας), μετασχηματιστές
ζυγίζω
τη συνάφεια κάθε άλλης εισόδου (άλλος θόρυβος σε μια εικόνα) και αντλήστε από αυτές για να δημιουργήσετε την έξοδο (εκτίμηση του θορύβου εικόνας).
Όχι μόνο ο μηχανισμός προσοχής κάνει τους μετασχηματιστές απλούστερους από άλλες αρχιτεκτονικές μοντέλων, αλλά κάνει την αρχιτεκτονική να παραλληλίζεται. Με άλλα λόγια, τα μεγαλύτερα και μεγαλύτερα μοντέλα μετασχηματιστών μπορούν να εκπαιδευτούν με σημαντικές αλλά όχι ανέφικτες αυξήσεις στον υπολογισμό.
«Αυτό που οι μετασχηματιστές συμβάλλουν στη διαδικασία διάχυσης είναι παρόμοιο με την αναβάθμιση του κινητήρα», είπε ο Xie στο TechCrunch σε μια συνέντευξη μέσω email. «Η εισαγωγή μετασχηματιστών… σηματοδοτεί ένα σημαντικό άλμα στην επεκτασιμότητα και την αποτελεσματικότητα. Αυτό είναι ιδιαίτερα εμφανές σε μοντέλα όπως το Sora, τα οποία επωφελούνται από την εκπαίδευση σε τεράστιους όγκους δεδομένων βίντεο και αξιοποιούν εκτεταμένες παραμέτρους μοντέλων για να επιδείξουν το μετασχηματιστικό δυναμικό των μετασχηματιστών όταν εφαρμόζονται σε κλίμακα».
Δημιουργήθηκε από το Stable Diffusion 3.
Λοιπόν, δεδομένου ότι η ιδέα για μετασχηματιστές διάχυσης υπήρχε εδώ και καιρό, γιατί χρειάστηκαν χρόνια μέχρι να αρχίσουν να τους αξιοποιούν έργα όπως το Sora και το Stable Diffusion; Ο Xie πιστεύει ότι η σημασία της ύπαρξης ενός κλιμακούμενου μοντέλου κορμού δεν ήρθε στο φως παρά σχετικά πρόσφατα.
«Η ομάδα του Sora πήγε πραγματικά πάνω και πέρα για να δείξει πόσα περισσότερα μπορείτε να κάνετε με αυτήν την προσέγγιση σε μεγάλη κλίμακα», είπε. «Έχουν ξεκαθαρίσει λίγο πολύ ότι οι U-Nets είναι έξω και
μετασχηματιστές
είναι μέσα για
διάχυση
μοντέλα από εδώ και πέρα».
Μετασχηματιστές διάχυσης
πρέπει
είναι μια απλή εναλλαγή για υπάρχοντα μοντέλα διάχυσης, λέει ο Xie — είτε τα μοντέλα δημιουργούν εικόνες, βίντεο, ήχο ή κάποια άλλη μορφή πολυμέσων. Η τρέχουσα διαδικασία εκπαίδευσης μετασχηματιστών διάχυσης δυνητικά εισάγει κάποιες αναποτελεσματικές και απώλειες απόδοσης, αλλά ο Xie πιστεύει ότι αυτό μπορεί να αντιμετωπιστεί σε βάθος χρόνου.
«Το κύριο πακέτο είναι αρκετά απλό: ξεχάστε το U-Nets και μεταβείτε στο
μετασχηματιστές,
επειδή είναι πιο γρήγοροι, λειτουργούν καλύτερα και είναι πιο κλιμακωτοί», είπε. «Με ενδιαφέρει να ενσωματώσω τους τομείς κατανόησης και δημιουργίας περιεχομένου στο πλαίσιο των μετασχηματιστών διάχυσης. Αυτή τη στιγμή, αυτοί είναι σαν δύο διαφορετικοί κόσμοι — ένας για την κατανόηση και ένας άλλος για τη δημιουργία. Οραματίζομαι ένα μέλλον όπου αυτές οι πτυχές θα ενσωματωθούν και πιστεύω ότι η επίτευξη αυτής της ολοκλήρωσης απαιτεί την τυποποίηση των υποκείμενων αρχιτεκτονικών, με τους μετασχηματιστές να είναι ο ιδανικός υποψήφιος για αυτόν τον σκοπό».
Αν το Sora και το Stable Diffusion 3.0 είναι μια προ
επισκόπηση
του τι να περιμένουμε με τους μετασχηματιστές διάχυσης, θα έλεγα ότι βρισκόμαστε σε μια τρελή βόλτα.
VIA:
techcrunch.com

