Το νέο μοντέλο Sora του OpenAI μπορεί να δημιουργήσει βίντεο διάρκειας λεπτών από μηνύματα κειμένου



Το OpenAI ανακοίνωσε την Πέμπτη το Sora, ένα ολοκαίνουργιο μοντέλο που δημιουργεί βίντεο υψηλής ευκρίνειας έως και ενός λεπτού από μηνύματα προτροπής κειμένου. Το Sora, που σημαίνει «ουρανός» στα Ιαπωνικά, δεν θα είναι σύντομα διαθέσιμο στο ευρύ κοινό. Αντίθετα, το OpenAI το καθιστά διαθέσιμο σε μια μικρή ομάδα ακαδημαϊκών και ερευνητών που θα αξιολογήσουν τις βλάβες και τις πιθανότητες κακής χρήσης της.

«Η Sora είναι σε θέση να δημιουργήσει περίπλοκες σκηνές με πολλούς χαρακτήρες, συγκεκριμένους τύπους κίνησης και ακριβείς λεπτομέρειες του θέματος και του φόντου», δήλωσε η εταιρεία

στην ιστοσελίδα της

. «Το μοντέλο κατανοεί όχι μόνο τι ζήτησε ο χρήστης στο μήνυμα, αλλά και πώς υπάρχουν αυτά τα πράγματα στον φυσικό κόσμο».

Ένα από τα βίντεο που δημιούργησε η Sora που μοιράστηκε το OpenAI στον ιστότοπό του δείχνει ένα ζευγάρι να περπατά σε μια χιονισμένη πόλη του Τόκιο καθώς γύρω τους φυσούν πέταλα από άνθη κερασιάς και νιφάδες χιονιού.

Ένα άλλο δείχνει ρεαλιστικά μαλλιαρά μαμούθ να περπατούν μέσα σε ένα χιονισμένο λιβάδι με φόντο χιονισμένες οροσειρές.

Το OpenAI λέει ότι το μοντέλο λειτουργεί ως αποτέλεσμα της «βαθιάς κατανόησης της γλώσσας», η οποία του επιτρέπει να ερμηνεύει με ακρίβεια τα μηνύματα κειμένου. Ωστόσο, όπως βασικά όλες οι συσκευές δημιουργίας εικόνων και βίντεο AI που έχουμε δει, η Sora δεν είναι τέλεια. Σε ένα από τα παραδείγματα, η προτροπή, η οποία ζητά ένα βίντεο με έναν Δαλματικό που κοιτάζει μέσα από ένα παράθυρο και ανθρώπους που «περπατούν και κάνουν ποδήλατο στους δρόμους του καναλιού», παραλείπει εντελώς τους ανθρώπους και τους δρόμους στο βίντεο. Το OpenAI προειδοποιεί επίσης ότι το μοντέλο μπορεί να δυσκολευτεί να κατανοήσει την αιτία και το αποτέλεσμα — μπορεί να δημιουργήσει ένα βίντεο με ένα άτομο να τρώει ένα μπισκότο, για παράδειγμα, αλλά το μπισκότο μπορεί να μην έχει σημάδια δαγκώματος.

Η Sora δεν είναι το πρώτο μοντέλο κειμένου σε βίντεο. Άλλες εταιρείες, όπως η Meta,

Google

και Runway, είτε έχουν πειράξει τα εργαλεία μετατροπής κειμένου σε βίντεο είτε τα έχουν καταστήσει διαθέσιμα στο κοινό. Ωστόσο, κανένα άλλο εργαλείο δεν μπορεί να δημιουργήσει βίντεο διάρκειας 60 δευτερολέπτων. Το Sora δημιουργεί επίσης ολόκληρα βίντεο ταυτόχρονα, αντί να τα συνδυάζει καρέ-καρέ όπως άλλα μοντέλα, γεγονός που διασφαλίζει ότι τα θέματα στο βίντεο παραμένουν ίδια ακόμα και όταν βγαίνουν προσωρινά εκτός προβολής.

Η άνοδος των εργαλείων κειμένου σε βίντεο έχει πυροδοτήσει ανησυχίες σχετικά με τη δυνατότητά τους να δημιουργούν πιο εύκολα ρεαλιστικά ψεύτικα πλάνα. «Είμαι απολύτως τρομοκρατημένος ότι κάτι τέτοιο θα επηρεάσει στενά αμφισβητούμενες εκλογές», ο Oren Etzioni, καθηγητής στο Πανεπιστήμιο της Ουάσιγκτον που ειδικεύεται στην τεχνητή νοημοσύνη και ιδρυτής της True Media, μιας οργάνωσης που εργάζεται για τον εντοπισμό παραπληροφόρησης στην πολιτική καμπάνιες,

είπε


Οι Νιου Γιορκ Ταιμς

. Και η γενετική τεχνητή νοημοσύνη γενικότερα έχει προκαλέσει αντιδράσεις από καλλιτέχνες και δημιουργικούς επαγγελματίες που ανησυχούν για την τεχνολογία που χρησιμοποιείται για την αντικατάσταση θέσεων εργασίας.

OpenAI

είπε

ότι συνεργαζόταν με ειδικούς σε τομείς όπως η παραπληροφόρηση, το περιεχόμενο μίσους και η προκατάληψη για να δοκιμάσει το εργαλείο προτού το καταστήσει διαθέσιμο στο κοινό. Η εταιρεία κατασκευάζει επίσης εργαλεία ικανά να ανιχνεύουν βίντεο που δημιουργούνται από τη Sora και να συμπεριλαμβάνουν μεταδεδομένα στα βίντεο που δημιουργούνται για ευκολότερο εντοπισμό. Η εταιρία

απορρίφθηκε

να πει το

Φορές

πώς εκπαιδεύτηκε η Sora, εκτός από το ότι χρησιμοποίησε τόσο «δημόσια διαθέσιμα βίντεο» όσο και βίντεο με άδεια από κατόχους πνευματικών δικαιωμάτων.


VIA:

engadget.com


Follow TechWar.gr on Google News