Sora του OpenAI: Η τεχνολογία πίσω από το εργαλείο μετατροπής κειμένου σε βίντεο
Ο κατασκευαστής ChatGPT OpenAI έχει πλέον αποκαλυφθεί
Σόρα
, η μηχανή τεχνητής νοημοσύνης του για τη μετατροπή μηνυμάτων κειμένου σε βίντεο. Σκεφτείτε το Dall-E (αναπτύχθηκε επίσης από την OpenAI), αλλά για ταινίες και όχι για στατικές εικόνες.
Είναι ακόμη πολύ νωρίς για τη Sora, αλλά το μοντέλο AI προκαλεί ήδη πολύ θόρυβο στα μέσα κοινωνικής δικτύωσης, με πολλά κλιπ να κάνουν τον γύρο – κλιπ που μοιάζουν σαν να έχουν δημιουργηθεί από μια ομάδα ηθοποιών και κινηματογραφιστών.
Εδώ θα εξηγήσουμε όλα όσα πρέπει να γνωρίζετε για το OpenAI Sora: τι είναι ικανό, πώς λειτουργεί και πότε μπορεί να μπορείτε να το χρησιμοποιήσετε μόνοι σας. Η εποχή της δημιουργίας ταινιών με προτροπή κειμένου AI έχει πλέον φτάσει.
Τον Φεβρουάριο του 2024, το OpenAI Sora τέθηκε στη διάθεση των «κόκκινων ομάδων» – αυτοί είναι οι άνθρωποι των οποίων η δουλειά είναι να δοκιμάσουν την ασφάλεια και τη σταθερότητα ενός προϊόντος. Το OpenAI προσκάλεσε επίσης έναν επιλεγμένο αριθμό εικαστικών καλλιτεχνών, σχεδιαστών και κινηματογραφιστών για να δοκιμάσουν τις δυνατότητες δημιουργίας βίντεο και να παράσχουν σχόλια.
“Μοιραζόμαστε την πρόοδο της έρευνάς μας νωρίς για να αρχίσουμε να εργαζόμαστε και να λαμβάνουμε σχόλια από άτομα εκτός του OpenAI και για να δώσουμε στο κοινό μια αίσθηση του ποιες είναι οι δυνατότητες τεχνητής νοημοσύνης στον ορίζοντα.”
λέει το OpenAI
.
Με άλλα λόγια, εμείς οι υπόλοιποι δεν μπορούμε να το χρησιμοποιήσουμε ακόμα. Προς το παρόν, δεν υπάρχει καμία ένδειξη για το πότε το Sora μπορεί να γίνει διαθέσιμο στο ευρύτερο κοινό ή πόσα θα πρέπει να πληρώσουμε για να το έχουμε πρόσβαση.
(Πίστωση εικόνας: OpenAI)
Μπορούμε να κάνουμε κάποιες πρόχειρες εικασίες σχετικά με το χρονοδιάγραμμα με βάση το τι συνέβη με το ChatGPT. Πριν κυκλοφορήσει στο κοινό αυτό το chatbot AI τον Νοέμβριο του 2022, είχε προηγηθεί ένας προκάτοχός του που ονομάζεται InstructGPT νωρίτερα εκείνο το έτος. Επίσης, το DevDay του OpenAI πραγματοποιείται συνήθως κάθε χρόνο τον Νοέμβριο.
Είναι σίγουρα πιθανό, λοιπόν, ότι ο Sora θα μπορούσε να ακολουθήσει ένα παρόμοιο μοτίβο και να κυκλοφορήσει στο κοινό την ίδια στιγμή το 2024. Αλλά αυτή τη στιγμή πρόκειται απλώς για εικασίες και θα ενημερώσουμε αυτήν τη σελίδα μόλις λάβουμε σαφέστερες ενδείξεις για μια
κυκλοφορία
του Sora ημερομηνία.
Όσο για την τιμή, ομοίως δεν έχουμε υποδείξεις για το πόσο μπορεί να κοστίσει το Sora. Ως οδηγός, το
ChatGPT Plus
– το οποίο προσφέρει πρόσβαση στα νεότερα μοντέλα μεγάλων γλωσσών (LLM) και Dall-E – κοστίζει επί του παρόντος 20 $ (περίπου 16 £ / 30 $ AU) το μήνα.
Αλλά το Sora απαιτεί επίσης πολύ περισσότερη υπολογιστική ισχύ από, για παράδειγμα, τη δημιουργία μιας μεμονωμένης εικόνας με το Dall-E, και η διαδικασία διαρκεί επίσης περισσότερο. Επομένως, δεν είναι ακόμα σαφές πόσο καλά μπορεί να μετατραπεί το Sora, το οποίο είναι ουσιαστικά μια ερευνητική
εργασία
, σε προσιτό καταναλωτικό προϊόν.
Μπορεί να είστε εξοικειωμένοι με μοντέλα τεχνητής νοημοσύνης που δημιουργούνται – όπως το Google
Gemini
για κείμενο και το Dall-E για εικόνες – που μπορούν να παράγουν νέο περιεχόμενο με βάση τεράστιες ποσότητες δεδομένων εκπαίδευσης. Εάν ζητήσετε από το ChatGPT να σας γράψει ένα ποίημα, για παράδειγμα, αυτό που θα λάβετε πίσω θα βασίζεται σε πολλά ποιήματα που η τεχνητή νοημοσύνη έχει ήδη απορροφήσει και αναλύσει.
Το OpenAI Sora είναι μια παρόμοια ιδέα, αλλά για βίντεο κλιπ. Του δίνετε ένα μήνυμα κειμένου, όπως “γυναίκα που περπατά σε έναν δρόμο της πόλης τη νύχτα” ή “αυτοκίνητο που οδηγεί μέσα σε ένα δάσος” και λαμβάνετε πίσω ένα βίντεο. Όπως και με τα μοντέλα εικόνων AI, μπορείτε να γίνετε πολύ συγκεκριμένοι όταν πρόκειται να πείτε τι πρέπει να περιλαμβάνεται στο κλιπ και το στυλ του πλάνα που θέλετε να δείτε.
Για να έχετε μια καλύτερη ιδέα για το πώς λειτουργεί αυτό, ρίξτε μια ματιά σε μερικά από τα παραδείγματα βίντεο που δημοσιεύτηκαν από
Ο Διευθύνων Σύμβουλος της OpenAI, Sam Altman
– λίγο καιρό μετά την αποκάλυψη του Sora στον κόσμο, ο Altman ανταποκρίθηκε στις προτροπές που διατυπώθηκαν στα μέσα κοινωνικής δικτύωσης, επιστρέφοντας βίντεο βασισμένα σε κείμενο όπως «ένας μάγος που φορά ένα μυτερό καπέλο και μια μπλε ρόμπα με λευκά αστέρια που ρίχνουν ένα ξόρκι που ρίχνει κεραυνό από το χέρι του και κρατώντας στο άλλο χέρι έναν παλιό τόμο».
Σε ένα απλοποιημένο επίπεδο, η τεχνολογία πίσω από το Sora είναι η ίδια τεχνολογία που σας επιτρέπει να αναζητήσετε φωτογραφίες ενός σκύλου ή μιας γάτας στον Ιστό. Δείξτε σε μια τεχνητή νοημοσύνη αρκετές φωτογραφίες ενός σκύλου ή μιας γάτας και θα μπορεί να εντοπίσει τα ίδια μοτίβα σε νέες εικόνες. με τον ίδιο τρόπο, εάν εκπαιδεύσετε ένα AI σε ένα εκατομμύριο βίντεο ενός ηλιοβασιλέματος ή ενός καταρράκτη, θα μπορεί να δημιουργήσει το δικό του.
Φυσικά, υπάρχει πολλή πολυπλοκότητα κάτω από αυτό, και το OpenAI έχει παράσχει
μια βαθιά βουτιά
για το πώς λειτουργεί το μοντέλο AI. Έχει εκπαιδευτεί σε “δεδομένα κλίμακας διαδικτύου” για να γνωρίζει πώς φαίνονται ρεαλιστικά βίντεο, αναλύοντας πρώτα τα κλιπ για να γνωρίζει τι βλέπει και στη συνέχεια μαθαίνει πώς να παράγει τις δικές του εκδόσεις όταν του ζητηθεί.
Ζητήστε, λοιπόν, από τον Sora να δημιουργήσει ένα κλιπ μιας δεξαμενής ψαριών και θα επιστρέψει με μια προσέγγιση που βασίζεται σε όλα τα βίντεο με δεξαμενές ψαριών που έχει δει. Χρησιμοποιεί αυτά που είναι γνωστά ως οπτικά patches, μικρότερα δομικά στοιχεία που βοηθούν την τεχνητή νοημοσύνη να κατανοήσει τι πρέπει να πάει και πώς πρέπει να αλληλεπιδρούν και να προχωρούν διαφορετικά στοιχεία ενός βίντεο, καρέ προς καρέ.
Η Σόρα αρχίζει πιο ακατάστατη, μετά γίνεται πιο τακτοποιημένη
(Πίστωση εικόνας: OpenAI)
Το Sora βασίζεται σε ένα μοντέλο διάχυσης, όπου το AI ξεκινά με μια «θορυβώδη» απόκριση και στη συνέχεια εργάζεται προς μια «καθαρή» έξοδο μέσω μιας σειράς βρόχων ανάδρασης και υπολογισμών πρόβλεψης. Μπορείτε να το δείτε στα παραπάνω καρέ, όπου ένα βίντεο ενός σκύλου που παίζει στην παράσταση μετατρέπεται από ανόητες σταγόνες σε κάτι που πραγματικά φαίνεται ρεαλιστικό.
Και όπως άλλα μοντέλα
γενετική
ς τεχνητής νοημοσύνης, το Sora χρησιμοποιεί τεχνολογία μετασχηματιστή (το τελευταίο T στο ChatGPT σημαίνει Transformer). Οι μετασχηματιστές χρησιμοποιούν μια ποικιλία εξελιγμένων τεχνικών ανάλυσης δεδομένων για την επεξεργασία σωρών δεδομένων – μπορούν να κατανοήσουν τα πιο σημαντικά και λιγότερο σημαντικά μέρη αυτού που αναλύεται και να καταλάβουν το περιβάλλον και τις σχέσεις μεταξύ αυτών των τμημάτων δεδομένων.
Αυτό που δεν γνωρίζουμε πλήρως είναι από πού βρήκε τα δεδομένα εκπαίδευσης του OpenAI – δεν έχει πει ποιες βιβλιοθήκες βίντεο έχουν χρησιμοποιηθεί για την τροφοδοσία του Sora, αν και γνωρίζουμε ότι έχει συνεργασίες με βάσεις δεδομένων περιεχομένου
όπως το Shutterstock
. Σε ορισμένες περιπτώσεις, μπορείτε
δείτε τις ομοιότητες
μεταξύ των δεδομένων εκπαίδευσης και της εξόδου που παράγει η Sora.
Προς το παρόν, το Sora είναι σε θέση να παράγει βίντεο HD διάρκειας έως και ενός λεπτού, χωρίς ήχο, από μηνύματα προτροπής κειμένου. Αν θέλετε να δείτε μερικά παραδείγματα για το τι είναι δυνατό, έχουμε συγκεντρώσει μια λίστα με 11 εντυπωσιακά σορτς Sora για να ρίξετε μια ματιά – συμπεριλαμβανομένων χνουδωτών χαρακτήρων κινουμένων σχεδίων σε στυλ Pixar και αστροναυτών με πλεκτά κράνη.
«Το Sora μπορεί να δημιουργήσει βίντεο διάρκειας έως και ενός λεπτού διατηρώντας την οπτική ποιότητα και την τήρηση των προτροπών του χρήστη», λέει το OpenAI, αλλά δεν είναι μόνο αυτό. Μπορεί επίσης να δημιουργήσει βίντεο από στατικές εικόνες, να συμπληρώσει καρέ που λείπουν σε υπάρχοντα βίντεο και να συνδυάσει απρόσκοπτα πολλά βίντεο μεταξύ τους. Μπορεί επίσης να δημιουργήσει στατικές εικόνες ή να παράγει ατελείωτους βρόχους από κλιπ που του παρέχονται.
Μπορεί ακόμη και να παράγει προσομοιώσεις βιντεοπαιχνιδιών
όπως το Minecraft
, και πάλι με βάση τεράστιες ποσότητες δεδομένων εκπαίδευσης που του διδάσκουν πώς πρέπει να μοιάζει ένα παιχνίδι όπως το Minecraft. Έχουμε ήδη δει ένα demo όπου ο Sora μπορεί να ελέγχει έναν παίκτη σε περιβάλλον τύπου Minecraft, ενώ παράλληλα αποδίδει με ακρίβεια τις λεπτομέρειες του περιβάλλοντος.
Το OpenAI αναγνωρίζει ορισμένους από τους περιορισμούς του Sora αυτή τη στιγμή. Η φυσική δεν έχει πάντα νόημα, με τους ανθρώπους να εξαφανίζονται ή να μεταμορφώνονται ή να αναμιγνύονται σε άλλα αντικείμενα. Το Sora δεν χαρτογραφεί μια σκηνή με μεμονωμένους ηθοποιούς και στηρίγματα, αλλά κάνει έναν απίστευτο αριθμό υπολογισμών σχετικά με το πού πρέπει να πηγαίνουν τα pixel από καρέ σε καρέ.
Στα βίντεο του Sora οι άνθρωποι μπορεί να κινούνται με τρόπους που αψηφούν τους νόμους της φυσικής ή λεπτομέρειες – όπως μια μπουκιά που αφαιρείται από ένα μπισκότο – μπορεί να μην θυμούνται από το ένα καρέ στο άλλο. Το OpenAI γνωρίζει αυτά τα ζητήματα και εργάζεται για να τα διορθώσει και μπορείτε να δείτε μερικά από τα παραδείγματα στο
Ιστότοπος OpenAI Sora
για να δούμε τι εννοούμε.
Παρά αυτά τα σφάλματα, πιο κάτω το OpenAI ελπίζει ότι ο Sora θα μπορούσε να εξελιχθεί για να γίνει ένας ρεαλιστικός προσομοιωτής φυσικών και ψηφιακών κόσμων. Στα επόμενα χρόνια, η τεχνολογία Sora θα μπορούσε να χρησιμοποιηθεί για να δημιουργήσει φανταστικούς εικονικούς κόσμους για να εξερευνήσουμε ή να μας επιτρέψει να εξερευνήσουμε πλήρως πραγματικά μέρη που αναπαράγονται στο AI.
Προς το παρόν, δεν μπορείτε να μπείτε στο Sora χωρίς πρόσκληση: φαίνεται ότι το OpenAI επιλέγει μεμονωμένους δημιουργούς και δοκιμαστές για να σας βοηθήσει να ετοιμάσει το μοντέλο τεχνητής νοημοσύνης που δημιουργείται από βίντεο για πλήρη δημόσια κυκλοφορία. Το πόσο θα διαρκέσει αυτή η περίοδος προεπισκόπησης, είτε πρόκειται για μήνες είτε για χρόνια, μένει να φανεί – αλλά το OpenAI έχει δείξει στο παρελθόν προθυμία να κινηθεί όσο το δυνατόν γρηγορότερα όσον αφορά τα έργα τεχνητής νοημοσύνης του.
Με βάση τις υπάρχουσες τεχνολογίες που έχει δημοσιοποιήσει το OpenAI – Dall-E και ChatGPT – φαίνεται πιθανό ότι το Sora θα είναι αρχικά διαθέσιμο ως διαδικτυακή εφαρμογή. Από την κυκλοφορία του, το ChatGPT έγινε πιο έξυπνο και πρόσθεσε νέες δυνατότητες, συμπεριλαμβανομένων προσαρμοσμένων bots, και είναι πιθανό ότι το Sora θα ακολουθήσει την ίδια διαδρομή όταν κυκλοφορήσει πλήρως.
Πριν συμβεί αυτό, η OpenAI λέει ότι θέλει να βάλει κάποια προστατευτικά κιγκλιδώματα: δεν θα μπορείτε να δημιουργήσετε βίντεο που να δείχνουν ακραία βία, σεξουαλικό περιεχόμενο, εικόνες μίσους ή ομοιότητες με διασημότητες. Υπάρχουν επίσης σχέδια για την καταπολέμηση της παραπληροφόρησης με τη συμπερίληψη μεταδεδομένων σε βίντεο Sora που υποδηλώνουν ότι έχουν δημιουργηθεί από AI.
VIA:
TechRadar.com/

