Η Meta ισχυρίζεται ότι το νέο της μοντέλο παραγωγής τέχνης είναι το καλύτερο στην κατηγορία του

Τα τελευταία δύο χρόνια, οι γεννήτριες εικόνων που λειτουργούν με τεχνητή νοημοσύνη έχουν εμπορευματοποιηθεί, περισσότερο ή λιγότερο, χάρη στην ευρεία διαθεσιμότητα — και τη μείωση των τεχνικών φραγμών γύρω — της τεχνολογίας. Έχουν αναπτυχθεί από σχεδόν κάθε σημαντικό παίκτη τεχνολογίας, συμπεριλαμβανομένης της

και της

, καθώς και από αμέτρητες νεοφυείς επιχειρήσεις που προσπαθούν να βρουν ένα κομμάτι από την ολοένα πιο προσοδοφόρα πίτα τεχνητής νοημοσύνης.

Αυτό δεν σημαίνει ότι είναι ακόμα συνεπείς, όσον αφορά τις επιδόσεις — πολύ μακριά από αυτό. Ενώ η ποιότητα των γεννητριών εικόνων έχει βελτιωθεί, υπήρξε μια σταδιακή, μερικές φορές αγωνιώδης πρόοδος.

Αλλά ο

ισχυρίζεται ότι είχε μια σημαντική ανακάλυψη.

Σήμερα, η Meta ανακοίνωσε το CM3Leon («χαμαιλέοντας» στα αδέξια

Leetspeak

), ένα μοντέλο AI που η εταιρεία ισχυρίζεται ότι επιτυγχάνει κορυφαίες επιδόσεις για δημιουργία κειμένου σε εικόνα. Το CM3Leon διακρίνεται επίσης επειδή είναι ένας από τους πρώτους παραγωγούς εικόνων ικανός να δημιουργεί λεζάντες για εικόνες, θέτοντας τις βάσεις για πιο ικανά μοντέλα κατανόησης εικόνων στο μέλλον, λέει ο Meta.

«Με τις δυνατότητες του CM3Leon, τα εργαλεία δημιουργίας εικόνων μπορούν να παράγουν πιο συνεκτικές εικόνες που ακολουθούν καλύτερα τις προτροπές εισαγωγής», έγραψε ο Meta σε μια ανάρτηση ιστολογίου που κοινοποιήθηκε στο TechCrunch νωρίτερα αυτή την εβδομάδα. “Πιστεύουμε ότι η ισχυρή απόδοση του CM3Leon σε μια ποικιλία εργασιών είναι ένα βήμα προς τη δημιουργία και την κατανόηση εικόνας υψηλότερης πιστότητας.”

Οι περισσότερες σύγχρονες συσκευές παραγωγής εικόνων, συμπεριλαμβανομένων των DALL-E 2 του

, Imagen της Google και Stable Diffusion, βασίζονται σε μια διαδικασία που ονομάζεται διάχυση για τη δημιουργία τέχνης. Στη διάχυση, ένα μοντέλο μαθαίνει πώς να αφαιρεί σταδιακά τον θόρυβο από μια αρχική εικόνα που αποτελείται εξ ολοκλήρου από θόρυβο — μετακινώντας την πιο κοντά βήμα προς βήμα στην προτροπή στόχου.

Τα αποτελέσματα είναι εντυπωσιακά. Αλλά η διάχυση είναι υπολογιστικά εντατική, καθιστώντας τη δαπανηρή λειτουργία και αρκετά αργή ώστε οι περισσότερες εφαρμογές σε πραγματικό χρόνο να μην είναι πρακτικές.

Το CM3Leon είναι ένα μοντέλο μετασχηματιστή, αντίθετα, που αξιοποιεί έναν μηχανισμό που ονομάζεται «προσοχή» για να σταθμίσει τη συνάφεια των δεδομένων εισόδου, όπως κείμενο ή εικόνες. Η προσοχή και οι άλλες αρχιτεκτονικές ιδιορρυθμίες των μετασχηματιστών μπορούν να ενισχύσουν την ταχύτητα εκπαίδευσης του μοντέλου και να κάνουν τα μοντέλα πιο εύκολα παραλληλίσιμα. Με άλλα λόγια, οι μεγαλύτεροι και μεγαλύτεροι μετασχηματιστές μπορούν να εκπαιδευτούν με σημαντικές αλλά όχι ανέφικτες αυξήσεις στον υπολογισμό.

Και το CM3Leon είναι άρτιο

περισσότερο

αποδοτικός από τους περισσότερους μετασχηματιστές, ισχυρίζεται η Meta, που απαιτεί πέντε φορές λιγότερο υπολογισμό και μικρότερο σύνολο δεδομένων εκπαίδευσης από τις προηγούμενες μεθόδους που βασίζονταν σε μετασχηματιστές.

Είναι ενδιαφέρον ότι το OpenAI εξερεύνησε τους μετασχηματιστές ως μέσο δημιουργίας εικόνας πριν από αρκετά χρόνια με ένα μοντέλο που ονομάζεται

Εικόνα GPT

. Αλλά τελικά εγκατέλειψε την ιδέα υπέρ της διάχυσης – και μπορεί σύντομα να προχωρήσει στη «συνέπεια».

Για να εκπαιδεύσει το CM3Leon, η Meta χρησιμοποίησε ένα σύνολο δεδομένων από εκατομμύρια αδειοδοτημένες εικόνες από το Shutterstock. Η πιο ικανή από πολλές εκδόσεις του CM3Leon που κατασκεύασε η Meta έχει 7 δισεκατομμύρια παραμέτρους, πάνω από τις διπλάσιες από το DALL-E 2. (Οι παράμετροι είναι τα μέρη του μοντέλου που μαθαίνονται από δεδομένα εκπαίδευσης και ουσιαστικά ορίζουν την ικανότητα του μοντέλου σε ένα πρόβλημα, όπως η δημιουργία κειμένου — ή, σε αυτήν την περίπτωση, εικόνων.)

Ένα κλειδί για την ισχυρότερη απόδοση του CM3Leon είναι μια τεχνική που ονομάζεται εποπτευόμενη λεπτομέρεια ή SFT για συντομία. Το SFT έχει χρησιμοποιηθεί για την εκπαίδευση μοντέλων δημιουργίας κειμένου όπως το

του OpenAI, αλλά η Meta θεώρησε ότι θα μπορούσε να είναι χρήσιμο όταν εφαρμόζεται και στον τομέα της εικόνας. Πράγματι, ο συντονισμός εντολών βελτίωσε την απόδοση του CM3Leon όχι μόνο στη δημιουργία εικόνων αλλά και στη σύνταξη λεζάντας εικόνων, επιτρέποντάς του να απαντά σε ερωτήσεις σχετικά με εικόνες και να επεξεργάζεται εικόνες ακολουθώντας οδηγίες κειμένου (π.χ. “αλλαγή του χρώματος του ουρανού σε φωτεινό μπλε”).

Οι περισσότερες συσκευές δημιουργίας εικόνων παλεύουν με «σύνθετα» αντικείμενα και μηνύματα κειμένου που περιλαμβάνουν πάρα πολλούς περιορισμούς. Αλλά το CM3Leon δεν το κάνει — ή τουλάχιστον, όχι τόσο συχνά. Σε μερικά επιλεγμένα παραδείγματα, η Meta έβαλε το CM3Leon να δημιουργήσει εικόνες χρησιμοποιώντας προτροπές όπως «Ένας μικρός κάκτος με ψάθινο καπέλο και γυαλιά ηλίου νέον στην έρημο Σαχάρα», «Μια κοντινή φωτογραφία ανθρώπινου χεριού, μοντέλο χεριού», «Ένα ρακούν κύριο χαρακτήρας σε ένα Anime που προετοιμάζεται για μια επική μάχη με σπαθί σαμουράι» και «Ένα σημάδι στοπ σε στυλ Φαντασίας με το κείμενο «1991».

Για λόγους σύγκρισης, έτρεξα τις ίδιες οδηγίες μέσω του DALL-E 2. Μερικά από τα αποτελέσματα ήταν κοντά. Αλλά οι εικόνες CM3Leon ήταν γενικά πιο κοντά στην προτροπή και πιο λεπτομερείς στα μάτια μου, με τη σήμανση να είναι το πιο προφανές παράδειγμα. (Μέχρι πρόσφατα, τα μοντέλα διάχυσης χειρίζονταν σχετικά άσχημα τόσο το κείμενο όσο και την ανθρώπινη ανατομία.)

Γεννήτρια εικόνας Meta.

Συντελεστές εικόνας:

Μετα

DALL-E 2

Τα αποτελέσματα του DALL-E 2.

Συντελεστές εικόνας:

DALL-E 2

Το CM3Leon μπορεί επίσης να κατανοήσει οδηγίες για την επεξεργασία υπαρχουσών εικόνων. Για παράδειγμα, δεδομένης της προτροπής “Δημιουργήστε εικόνα υψηλής ποιότητας “ένα δωμάτιο που έχει νεροχύτη και καθρέφτη” με μπουκάλι στη θέση (199, 130),” το μοντέλο μπορεί να δημιουργήσει κάτι οπτικά συνεκτικό και, όπως το θέτει ο Meta, «κατάλληλο για τα συμφραζόμενα» — δωμάτιο, νεροχύτης, καθρέφτης, μπουκάλι και όλα. Το DALL-E 2 αποτυγχάνει τελείως να κατανοήσει τις αποχρώσεις των προτροπών όπως αυτές, μερικές φορές παραλείποντας εντελώς τα αντικείμενα που καθορίζονται στο μήνυμα.

Και, φυσικά, σε αντίθεση με το DALL-E 2, το CM3Leon μπορεί να ακολουθήσει μια σειρά προτροπών για να δημιουργήσει σύντομους ή μεγάλους υπότιτλους και να απαντήσει σε ερωτήσεις σχετικά με μια συγκεκριμένη εικόνα. Σε αυτούς τους τομείς, το μοντέλο είχε καλύτερες επιδόσεις ακόμη και από εξειδικευμένα μοντέλα υπότιτλων εικόνων (π.χ. Flamingo, OpenFlamingo) παρά το γεγονός ότι είδε λιγότερο κείμενο στα δεδομένα εκπαίδευσής του, ισχυρίζεται η Meta.

Τι γίνεται όμως με την προκατάληψη; Τα μοντέλα τεχνητής νοημοσύνης που γεννιούνται, όπως το DALL-E 2, έχει βρεθεί ότι ενισχύουν τις κοινωνικές προκαταλήψεις, σε τελική ανάλυση, δημιουργώντας εικόνες θέσεων εξουσίας – όπως “CEO” ή “διευθυντής” – που απεικονίζουν κυρίως λευκούς άνδρες. Ο Meta αφήνει αυτήν την ερώτηση αδιάφορη, λέγοντας μόνο ότι το CM3Leon «μπορεί να αντικατοπτρίζει τυχόν προκαταλήψεις που υπάρχουν στα δεδομένα εκπαίδευσης».

«Καθώς η βιομηχανία της τεχνητής νοημοσύνης συνεχίζει να εξελίσσεται, τα μοντέλα παραγωγής όπως το CM3Leon γίνονται όλο και πιο εξελιγμένα», γράφει η εταιρεία. «Ενώ ο κλάδος βρίσκεται ακόμη στα πρώτα του στάδια κατανόησης και αντιμετώπισης αυτών των προκλήσεων, πιστεύουμε ότι η διαφάνεια θα είναι το κλειδί για την επιτάχυνση της προόδου».

Η Meta δεν είπε εάν — ή πότε — σχεδιάζει να κυκλοφορήσει το CM3Leon. Δεδομένων των αντιπαραθέσεων που στροβιλίζονται γύρω από τις γεννήτριες τέχνης ανοιχτού κώδικα, δεν θα κρατούσα την ανάσα μου.


techcrunch.com



You might also like

Leave A Reply



Cancel Reply

Your email address will not be published.