Το Gen-2 του Runway δείχνει τους περιορισμούς της σημερινής τεχνολογίας μετατροπής κειμένου σε βίντεο
Related Posts
Σε μια πρόσφατη συνέντευξη στο πάνελ του Collider, ο Τζο Ρούσο, ο σκηνοθέτης των ταινιών της
Marvel
όπως το «Avengers: Endgame», προέβλεψε ότι μέσα σε δύο χρόνια, η τεχνητή νοημοσύνη θα είναι σε θέση να δημιουργήσει μια ολοκληρωμένη ταινία.
Θα έλεγα ότι είναι ένα μάλλον αισιόδοξο χρονοδιάγραμμα. Αλλά πλησιάζουμε.
Αυτή την εβδομάδα, το Runway, α
Υποστηρίζεται από την Google
Η εκκίνηση τεχνητής νοημοσύνης που βοήθησε στην ανάπτυξη της γεννήτριας εικόνας AI Stable Diffusion, κυκλοφόρησε το Gen-2, ένα μοντέλο που δημιουργεί βίντεο από μηνύματα κειμένου ή μια υπάρχουσα εικόνα. (Το Gen-2 ήταν προηγουμένως σε περιορισμένη πρόσβαση στη λίστα αναμονής.) Η συνέχεια του μοντέλου Gen-1 της Runway που κυκλοφόρησε τον Φεβρουάριο, το Gen-2 είναι ένα από τα πρώτα εμπορικά διαθέσιμα μοντέλα κειμένου σε βίντεο.
Το “εμπορικά διαθέσιμο” είναι μια σημαντική διάκριση. Το κείμενο σε βίντεο, που είναι το λογικό επόμενο σύνορο στη γενετική τεχνητή νοημοσύνη μετά τις εικόνες και το κείμενο, γίνεται μεγαλύτερος τομέας εστίασης, ιδίως μεταξύ των τεχνολογικών κολοσσών, αρκετοί από τους οποίους έχουν παρουσιάσει μοντέλα κειμένου σε βίντεο τον περασμένο χρόνο. Αλλά αυτά τα μοντέλα παραμένουν σταθερά στα ερευνητικά στάδια, απρόσιτα σε όλους εκτός από λίγους επιλεγμένους επιστήμονες και μηχανικούς δεδομένων.
Φυσικά, το πρώτο δεν είναι απαραίτητα καλύτερο.
Από προσωπική περιέργεια και εξυπηρέτηση προς εσάς, αγαπητοί αναγνώστες, έδωσα μερικές προτροπές μέσω του Gen-2 για να καταλάβω τι μπορεί – και τι δεν μπορεί – να επιτύχει το μοντέλο. (Η Runway παρέχει αυτήν τη στιγμή περίπου 100 δευτερόλεπτα δωρεάν δημιουργίας βίντεο.) Δεν υπήρχε μεγάλη μέθοδος για την τρέλα μου, αλλά προσπάθησα να καταγράψω μια σειρά από γωνίες, είδη και στυλ που θα ήθελε να δει ένας σκηνοθέτης, επαγγελματίας ή πολυθρόνας στην ασημένια οθόνη — ή σε φορητό υπολογιστή ανάλογα με την περίπτωση.
Ένας περιορισμός του Gen-2 που έγινε αμέσως εμφανής είναι ο ρυθμός καρέ των βίντεο διάρκειας τεσσάρων δευτερολέπτων που δημιουργεί το μοντέλο. Είναι αρκετά χαμηλό και εμφανώς έτσι, σε σημείο που κατά τόπους μοιάζει σχεδόν με παρουσίαση.
Συντελεστές εικόνας:
Διάδρομος αεροδρομίου
Αυτό που δεν είναι ξεκάθαρο είναι αν πρόκειται για πρόβλημα με την τεχνολογία ή προσπάθεια του Runway να εξοικονομήσει υπολογιστικό κόστος. Σε κάθε περίπτωση, καθιστά το Gen-2 μια μάλλον μη ελκυστική πρόταση από το ρόπαλο για τους εκδότες που ελπίζουν να αποφύγουν τη δουλειά μετά την παραγωγή.
Πέρα από το ζήτημα του ρυθμού καρέ, ανακάλυψα ότι τα κλιπ που δημιουργούνται από το Gen-2 τείνουν να μοιράζονται μια συγκεκριμένη κοκκότητα ή ασάφεια από κοινού, σαν να είχαν εφαρμοστεί κάποιο παλιό φίλτρο
Instagram
. Άλλα τεχνουργήματα συμβαίνουν επίσης σε μέρη, όπως η εικονοστοιχεία γύρω από αντικείμενα όταν η «κάμερα» (ελλείψει καλύτερης λέξης) τα κυκλώνει ή κάνει γρήγορα ζουμ προς το μέρος τους.
Όπως συμβαίνει με πολλά μοντέλα παραγωγής, το Gen-2 δεν είναι ιδιαίτερα συνεπές σε σχέση με τη φυσική ή την ανατομία. Σαν κάτι που επινοήθηκε από έναν σουρεαλιστή, τα χέρια και τα πόδια των ανθρώπων στα βίντεο παραγωγής Gen-2 συγχωνεύονται και διαλύονται ξανά ενώ τα αντικείμενα λιώνουν στο πάτωμα και εξαφανίζονται, οι αντανακλάσεις τους παραμορφώνονται και παραμορφώνονται. Και — ανάλογα με την προτροπή — τα πρόσωπα μπορεί να φαίνονται σαν κούκλα, με γυαλιστερά, χωρίς συναισθήματα μάτια και παχύρρευστο δέρμα που παραπέμπει σε ένα φτηνό πλαστικό.
Συντελεστές εικόνας:
Διάδρομος αεροδρομίου
Για να στριμώξουμε πιο ψηλά, υπάρχει το θέμα του περιεχομένου. Το Gen-2 φαίνεται να δυσκολεύεται να κατανοήσει τις αποχρώσεις, προσκολλάται σε συγκεκριμένους περιγραφικούς δείκτες σε προτροπές ενώ αγνοεί άλλους, φαινομενικά τυχαία.
Συντελεστές εικόνας:
Διάδρομος αεροδρομίου
Μια από τις προτροπές που δοκίμασα, «Ένα βίντεο μιας υποβρύχιας ουτοπίας, γυρισμένο σε μια παλιά κάμερα, με το στυλ μιας ταινίας «βρέθηκε πλάνα», δεν προκάλεσε τέτοια ουτοπία – μόνο κάτι που έμοιαζε με μια κατάδυση πρώτου προσώπου. ένας ανώνυμος κοραλλιογενής ύφαλος. Το Gen-2 ταλαιπωρήθηκε και με τα άλλα μου μηνύματα, αποτυγχάνοντας να δημιουργήσει μια λήψη μεγέθυνσης για μια προτροπή που ζητούσε ειδικά ένα “αργό ζουμ” και δεν χτύπησε αρκετά την εμφάνιση του μέσου αστροναύτη σας.
Θα μπορούσαν τα προβλήματα να σχετίζονται με το σύνολο δεδομένων εκπαίδευσης του Gen-2; Ισως.
Το Gen-2, όπως και το Stable Diffusion, είναι ένα μοντέλο διάχυσης, που σημαίνει ότι μαθαίνει πώς να αφαιρεί σταδιακά τον θόρυβο από μια αρχική εικόνα που αποτελείται εξ ολοκλήρου από θόρυβο για να την μετακινήσει πιο κοντά, βήμα προς βήμα, στην προτροπή. Τα μοντέλα διάχυσης μαθαίνουν μέσω της εκπαίδευσης σε εκατομμύρια έως δισεκατομμύρια παραδείγματα. σε ακαδημαϊκό
χαρτί
Αναλύοντας λεπτομερώς την αρχιτεκτονική του Gen-2, ο Runway λέει ότι το μοντέλο εκπαιδεύτηκε σε ένα εσωτερικό σύνολο δεδομένων 240 εκατομμυρίων εικόνων και 6,4 εκατομμυρίων βίντεο κλιπ.
Η διαφορετικότητα στα παραδείγματα είναι το κλειδί. Εάν το σύνολο δεδομένων δεν περιέχει πολλά πλάνα, για παράδειγμα, κινούμενα σχέδια, το μοντέλο — χωρίς σημεία αναφοράς — δεν θα μπορεί να δημιουργήσει κινούμενα σχέδια λογικής ποιότητας. (Φυσικά, το animation είναι ένα ευρύ πεδίο, ακόμα κι αν το σύνολο δεδομένων
έκανε
έχουν κλιπ anime ή κινούμενα σχέδια με το χέρι, το μοντέλο δεν θα γενικευόταν απαραίτητα καλά σε
όλα
είδη κινουμένων σχεδίων.)
Συντελεστές εικόνας:
Διάδρομος αεροδρομίου
Από τη θετική πλευρά, το Gen-2 περνά μια δοκιμή μεροληψίας σε επίπεδο επιφάνειας. Ενώ τα μοντέλα γενετικής τεχνητής νοημοσύνης όπως το DALL-E 2 έχει διαπιστωθεί ότι ενισχύουν τις κοινωνικές προκαταλήψεις, δημιουργώντας εικόνες θέσεων εξουσίας – όπως “CEO ή “διευθυντής” – που απεικονίζουν κυρίως λευκούς άνδρες, το Gen-2 ήταν το μικρότερο λίγο πιο διαφοροποιημένο στο περιεχόμενο δημιουργήθηκε — τουλάχιστον στις δοκιμές μου.
Συντελεστές εικόνας:
Διάδρομος αεροδρομίου
Τροφοδοτώντας το μήνυμα «Ένα βίντεο ενός Διευθύνοντος Συμβούλου που μπαίνει σε μια αίθουσα συνεδριάσεων», το Gen-2 δημιούργησε ένα βίντεο ανδρών και γυναικών (αν και περισσότεροι άνδρες παρά γυναίκες) κάθονται γύρω από κάτι σαν τραπέζι συνεδριάσεων. Η έξοδος για την προτροπή “Ένα βίντεο ενός γιατρού που εργάζεται σε ένα γραφείο”, εν τω μεταξύ, απεικονίζει μια γυναίκα γιατρό αόριστα Ασιάτισσα σε εμφάνιση πίσω από ένα γραφείο.
Ωστόσο, τα αποτελέσματα για οποιαδήποτε προτροπή που περιείχε τη λέξη “νοσοκόμα” ήταν λιγότερο ελπιδοφόρα, εμφανίζοντας με συνέπεια νεαρές λευκές γυναίκες. Το ίδιο για τη φράση “ένα άτομο που περιμένει τραπέζια”. Προφανώς, υπάρχει δουλειά να γίνει.
Το πλεονέκτημα από όλα αυτά, για μένα, είναι ότι το Gen-2 είναι περισσότερο μια καινοτομία ή παιχνίδι παρά ένα πραγματικά χρήσιμο εργαλείο σε οποιαδήποτε ροή εργασίας βίντεο. Θα μπορούσαν τα αποτελέσματα να επεξεργαστούν σε κάτι πιο συνεκτικό; Ισως. Αλλά ανάλογα με το βίντεο, θα απαιτούσε δυνητικά περισσότερη δουλειά από τη λήψη πλάνα αρχικά.
Αυτό δεν πρέπει να είναι
πολύ
απορρίπτοντας την τεχνολογία. Είναι εντυπωσιακό αυτό που έκανε η Runway εδώ, νικώντας ουσιαστικά τους γίγαντες της τεχνολογίας στη διάδοση κειμένου σε βίντεο. Και είμαι βέβαιος ότι ορισμένοι χρήστες θα βρουν χρήσεις για το Gen-2 που δεν απαιτούν φωτορεαλισμό — ή πολλή δυνατότητα προσαρμογής. (Διευθύνων Σύμβουλος του Runway Cristóbal Valenzuela
πρόσφατα
είπε στο
Bloomberg
ότι βλέπει το Gen-2 ως έναν τρόπο να προσφέρει στους καλλιτέχνες και τους σχεδιαστές ένα εργαλείο που μπορεί να τους βοηθήσει με τις δημιουργικές τους διαδικασίες.)
Συντελεστές εικόνας:
Διάδρομος αεροδρομίου
το έκανα μόνος μου. Το Gen-2 μπορεί πράγματι να κατανοήσει μια σειρά από στυλ, όπως anime και claymation, τα οποία προσφέρονται για χαμηλότερο ρυθμό καρέ. Με λίγη δουλειά και μοντάζ, δεν θα ήταν αδύνατο να συνδυάσετε μερικά κλιπ από για να δημιουργήσετε ένα αφηγηματικό κομμάτι.
Για να μην σας απασχολήσει η πιθανότητα για deepfakes, η Runway λέει ότι χρησιμοποιεί έναν συνδυασμό τεχνητής νοημοσύνης και ανθρώπινης μετριοπάθειας για να εμποδίσει τους χρήστες να δημιουργήσουν βίντεο που περιλαμβάνουν πορνογραφία, βίαιο περιεχόμενο ή που παραβιάζουν τα πνευματικά δικαιώματα. Μπορώ να επιβεβαιώσω ότι υπάρχει ένα φίλτρο περιεχομένου — στην πραγματικότητα ένα υπερβολικό ζήλο. Αλλά φυσικά, αυτές δεν είναι αλάνθαστες μέθοδοι, οπότε θα πρέπει να δούμε πόσο καλά λειτουργούν στην πράξη.
Συντελεστές εικόνας:
Διάδρομος αεροδρομίου
Αλλά τουλάχιστον προς το παρόν, οι κινηματογραφιστές, οι εμψυχωτές και οι καλλιτέχνες και οι ηθικολόγοι CGI μπορούν να είναι ήσυχοι. Θα περάσουν τουλάχιστον δύο επαναλήψεις στη γραμμή πριν η τεχνολογία του Runway πλησιάσει να δημιουργήσει πλάνα ποιότητας ταινίας – υποθέτοντας ότι θα φτάσει ποτέ εκεί.


