Modern technology gives us many things.

Με το DeepFloyd, η δημιουργική τέχνη AI λαμβάνει αναβάθμιση κειμένου

Το Generative AI είναι αρκετά εντυπωσιακό όσον αφορά την πιστότητά του αυτές ς μέρες, όπως τα viral memes Balenciaga Πάπας θα πρότεινε. Τα πιο πρόσφατα συστήματα μπορούν να δημιουργήσουν τοπία από τον ορίζοντα της πόλης έως τα καφέ, δημιουργώντας εικόνες που φαίνονται εκπληκτικά ρεαλιστικές — τουλάχιστον με την πρώτη ματιά.

Αλλά μια από τις μακροχρόνιες αδυναμίες των μοντέλων τεχνητής νοημοσύνης από κείμενο σε εικόνα είναι, κατά ειρωνικό τρόπο, το κείμενο. Ακόμη και τα καλύτερα μοντέλα δυσκολεύονται να δημιουργήσουν εικόνες με ευανάγνωστα λογότυπα, πολύ λιγότερο κείμενο, καλλιγραφία ή γραμματοσειρές.

Αλλά αυτό μπορεί να αλλάξει.

Την περασμένη εβδομάδα, η DeepFloyd, μια ερευνητική ομάδα που υποστηρίζεται από το Stability AI, αποκαλύφθηκε DeepFloyd IF, ένα κειμένου σε εικόνα που μπορεί «έξυπνα» να ενσωματώσει κείμενο σε εικόνες. Εκπαιδευμένο σε ένα σύνολο δεδομένων με περισσότερες από ένα δισεκατομμύριο εικόνες και κείμενο, το DeepFloyd IF, το οποίο απαιτεί GPU με τουλάχιστον 16 GB μνήμης RAM για να λειτουργήσει, μπορεί να δημιουργήσει μια εικόνα από μια προτροπή όπως “ένα αρκουδάκι που φοράει ένα πουκάμισο που γράφει “Deep Floyd” ” — προαιρετικά σε μια σειρά από στυλ.

Το DeepFloyd IF είναι διαθέσιμο σε ανοιχτό κώδικα, με άδεια χρήσης με τρόπο που απαγορεύει την εμπορική χρήση — προς το παρόν. Ο περιορισμός πιθανότατα υποκινήθηκε από το τρέχον αδύναμο νομικό καθεστώς των μοντέλων τέχνης τεχνητής νοημοσύνης. Αρκετοί πωλητές εμπορικών μοντέλων δέχονται πυρά από καλλιτέχνες που ισχυρίζονται ότι οι πωλητές επωφελούνται από τη δουλειά τους χωρίς να τους αποζημιώνουν αφαιρώντας αυτό το έργο από τον Ιστό χωρίς άδεια.

Αλλά το NightCafe, η παραγωγική πλατφόρμα τέχνης, παραχωρήθηκε πρώιμη πρόσβαση στο DeepFloyd IF.

Ο Διευθύνων Σύμβουλος του NightCafe, Angus Russell, μίλησε στο TechCrunch για το τι κάνει το DeepFloyd IF διαφορετικό από άλλα μοντέλα κειμένου σε εικόνα και γιατί μπορεί να αποτελεί ένα σημαντικό βήμα προς τα εμπρός για τη γενετική τεχνητή νοημοσύνη.

Σύμφωνα με τον Russell, το σχέδιο του DeepFloyd IF εμπνεύστηκε σε μεγάλο βαθμό από το μοντέλο Imagen της Google, το οποίο δεν κυκλοφόρησε ποτέ δημόσια. Σε αντίθεση με μοντέλα όπως το DALL-E 2 του και το Stable Diffusion, το DeepFloyd IF χρησιμοποιεί πολλαπλές διαφορετικές διαδικασίες στοιβαγμένες μαζί σε μια αρθρωτή αρχιτεκτονική για τη δημιουργία εικόνων.

Συντελεστές εικόνας: DeepFloyd

Με ένα τυπικό μοντέλο διάχυσης, το μοντέλο μαθαίνει πώς να αφαιρεί σταδιακά το θόρυβο από μια αρχική εικόνα που αποτελείται σχεδόν εξ ολοκλήρου από θόρυβο, μετακινώντας την πιο κοντά βήμα προς βήμα στην προτροπή στόχου. Το DeepFloyd IF εκτελεί διάχυση όχι μία αλλά πολλές φορές, δημιουργώντας μια εικόνα 64x64px, στη συνέχεια αναβαθμίζοντας την εικόνα σε 256x256px και, τέλος, σε 1024x1024px.

Γιατί χρειάζονται πολλαπλά βήματα διάχυσης; Το DeepFloyd IF λειτουργεί απευθείας με , εξήγησε ο Russell. Τα μοντέλα διάχυσης είναι ως επί το πλείστον μοντέλα λανθάνουσας διάχυσης, πράγμα που ουσιαστικά σημαίνει ότι λειτουργούν σε χώρο χαμηλότερης διάστασης που αντιπροσωπεύει πολύ περισσότερα pixel αλλά με λιγότερο ακριβή τρόπο.

Η άλλη βασική διαφορά μεταξύ του DeepFloyd IF και μοντέλων όπως το Stable Diffusion και το DALL-E 2 είναι ότι το πρώτο χρησιμοποιεί ένα μοντέλο μεγάλης γλώσσας για να κατανοεί και να αναπαριστά τις προτροπές ως διάνυσμα, μια βασική δομή δεδομένων. ρεουε στο μέγεθος του μεγάλου γλωσσικού μοντέλου που είναι ενσωματωμένο στην αρχιτεκτονική του DeepFloyd IF, το μοντέλο είναι ιδιαίτερα καλό στην κατανόηση πολύπλοκων προτροπών και ακόμη και χωρικών σχέσεων που περιγράφονται στα μηνύματα (π.χ. “ένας κόκκινος κύβος πάνω από μια ροζ σφαίρα”).

“Είναι επίσης πολύ καλό στη δημιουργία ευανάγνωστου και σωστά γραμμένου κειμένου σε εικόνες, και μπορεί ακόμη και να κατανοήσει τις προτροπές σε πολλές γλώσσες”, πρόσθεσε ο Russell. «Από αυτές τις δυνατότητες, η δυνατότητα δημιουργίας ευανάγνωστου κειμένου σε εικόνες είναι ίσως η μεγαλύτερη ανακάλυψη για να κάνει το DeepFloyd IF να ξεχωρίζει από άλλους αλγόριθμους».

Επειδή το DeepFloyd IF μπορεί πολύ καλά να δημιουργήσει κείμενο σε εικόνες, ο Russell αναμένει ότι θα ξεκλειδώσει ένα κύμα νέων δυνατοτήτων παραγωγής τέχνης – σκεφτείτε το σχεδιασμό λογότυπων, το σχεδιασμό ιστοσελίδων, τις αφίσες, τις διαφημιστικές πινακίδες και ακόμη και τα μιμίδια. Το μοντέλο θα πρέπει επίσης να είναι πολύ καλύτερο στη δημιουργία πραγμάτων όπως τα χέρια, λέει, και —επειδή μπορεί να κατανοήσει προτροπές σε άλλες γλώσσες— ίσως να μπορεί να δημιουργήσει κείμενο και σε αυτές τις γλώσσες.

Οι χρήστες του NightCafe είναι ενθουσιασμένοι με το DeepFloyd IF σε μεγάλο βαθμό λόγω των δυνατοτήτων που ξεκλειδώνονται με τη δημιουργία κειμένου σε εικόνες», είπε ο Russell. “Το Stable Diffusion XL ήταν ο πρώτος αλγόριθμος ανοιχτού κώδικα που έκανε πρόοδο στη δημιουργία κειμένου — μπορεί να δημιουργήσει με ακρίβεια μία ή δύο λέξεις μερικοί της εποχής — αλλά εξακολουθεί να μην είναι αρκετά καλό σε αυτό για περιπτώσεις χρήσης όπου το κείμενο είναι σημαντικό».

Αυτό δεν σημαίνει ότι το DeepFloyd IF είναι το ιερό δισκοπότηρο των μοντέλων κειμένου σε εικόνα. Ο Russell σημειώνει ότι το βασικό μοντέλο dδεν παράγει εικόνες που να είναι εξίσου αισθητικά ευχάριστο όπως ορισμένα μοντέλα διάχυσης, αν και αναμένει ότι η τελειοποίηση θα βελτιώσει αυτό.

, Με το DeepFloyd, η δημιουργική τέχνη AI λαμβάνει αναβάθμιση κειμένου, TechWar.gr

Συντελεστές εικόνας: DeepFloyd

Αλλά το μεγαλύτερο ερώτημα, για μένα, είναι σε ποιο βαθμό το DeepFloyd IF πάσχει από τα ίδια ελαττώματα με τα αδέρφια του με γενετική τεχνητή νοημοσύνη.

Ένα αυξανόμενο σώμα από έρευνα έχει εμφανίσει φυλετικές, εθνοτικές, φυλετικές και άλλες μορφές στερεοτύπων στην τεχνητή νοημοσύνη που δημιουργεί εικόνες, συμπεριλαμβανομένου Σταθερή Διάχυση. Μόλις αυτόν τον μήνα, οι ερευνητές της τεχνητής νοημοσύνης Hugging Face και του Πανεπιστημίου της Λειψίας δημοσίευσαν ένα εργαλείο αποδεικνύοντας ότι τα μοντέλα όπως το Stable Diffusion και το DALL-E 2 του OpenAI τείνουν να παράγουν εικόνες ανθρώπων που φαίνονται λευκοί και αρσενικοί, ειδικά όταν τους ζητείται να απεικονίσουν άτομα σε θέσεις εξουσίας.

Η ομάδα του DeepFloyd, προς τιμήν της, σημειώνει την πιθανότητα μεροληψίας στα ψιλά γράμματα που συνοδεύουν το DeepFloyd IF:

Κείμενα και εικόνες από κοινότητες και πολιτισμούς που χρησιμοποιούν άλλες γλώσσες είναι πιθανό να μην λαμβάνονται επαρκώς υπόψη. Αυτό επηρεάζει τη συνολική απόδοση του μοντέλου, καθώς οι λευκοί και οι δυτικοί πολιτισμοί συχνά ορίζονται ως προεπιλογή.

Εκτός από αυτό, το DeepFloyd IF, όπως και άλλα μοντέλα παραγωγής ανοιχτού κώδικα, θα μπορούσε να χρησιμοποιηθεί για κακό, όπως η δημιουργία πορνογραφικών ψεύτικα διασημοτήτων και γραφικών απεικονίσεων βίας. Στην επίσημη ιστοσελίδα του DeepFloyd IF, η ομάδα του DeepFloyd λέει ότι χρησιμοποίησε «προσαρμοσμένα φίλτρα» για να αφαιρέσει το υδατογράφημα, το «NSFW» και «άλλο ακατάλληλο περιεχόμενο» από τα δεδομένα εκπαίδευσης.

Ωστόσο, δεν είναι σαφές ακριβώς ποιο περιεχόμενο αφαιρέθηκε — και πόσα μπορεί να έχουν χαθεί. Τελικά, ο χρόνος θα δείξει.



techcrunch.com

Leave A Reply

Your email address will not be published.