Το νεότερο μοντέλο του OpenAI, Sora, μπορεί να δημιουργήσει βίντεο — και φαίνονται αξιοπρεπή
Το
OpenAI
, ακολουθώντας τα βήματα των startups όπως η Runway και των τεχνολογικών κολοσσών όπως η Google και η Meta, μπαίνει στη δημιουργία βίντεο.
Το OpenAI αποκαλύφθηκε σήμερα
Σόρα
, ένα μοντέλο GenAI που δημιουργεί βίντεο από κείμενο. Με μια σύντομη —ή λεπτομερή— περιγραφή ή μια ακίνητη εικόνα, το Sora μπορεί να δημιουργήσει σκηνές που μοιάζουν με ταινία 1080p με πολλούς χαρακτήρες, διαφορετικούς τύπους κίνησης και λεπτομέρειες φόν
του
, ισχυρίζεται το OpenAI.
Το Sora μπορεί επίσης να «επεκτείνει» τα υπάρχοντα βίντεο κλιπ — κάνοντας ό,τι καλύτερο μπορεί για να συμπληρώσει τις λεπτομέρειες που λείπουν.
«Η Sora έχει βαθιά κατανόηση της γλώσσας, επιτρέποντάς της να ερμηνεύει με ακρίβεια τις προτροπές και να δημιουργεί συναρπαστικούς χαρακτήρες που εκφράζουν ζωντανά συναισθήματα», γράφει το OpenAI σε μια ανάρτηση ιστολογίου. “
Το μοντέλο κατανοεί όχι μόνο τι ζήτησε ο χρήστης στο μήνυμα, αλλά και πώς υπάρχουν αυτά τα πράγματα στον φυσικό κόσμο.»
Τώρα, υπάρχει πολλή έκρηξη στη σελίδα επίδειξης του OpenAI για το Sora — η παραπάνω δήλωση αποτελεί παράδειγμα. Αλλά τα δείγματα από το μοντέλο
κάνω
φαίνονται μάλλον εντυπωσιακά, τουλάχιστον σε σύγκριση με τις άλλες τεχνολογίες κειμένου σε βίντεο που έχουμε δει.
Για αρχή, το Sora μπορεί να δημιουργήσει βίντεο σε μια σειρά από στυλ (π.χ. φωτορεαλιστικά, κινούμενα σχέδια, ασπρόμαυρα κ.λπ.) έως και ένα λεπτό — πολύ περισσότερο από τα περισσότερα μοντέλα κειμένου σε βίντεο. Και αυτά τα βίντεο διατηρούν μια λογική συνοχή με την έννοια ότι δεν υποκύπτουν πάντα σε αυτό που μου αρέσει να αποκαλώ «παραξενιά της τεχνητής νοημοσύνης», όπως αντικείμενα που κινούνται σε φυσικώς αδύνατες κατευθύνσεις.
Ρίξτε μια ματιά σε αυτήν την περιήγηση σε μια γκαλερί τέχνης, η οποία δημιουργήθηκε από τη Sora (αγνοήστε την κοκκότητα — συμπίεση από το εργαλείο μετατροπής βίντεο-GIF μου):
Συντελεστές εικόνας:
OpenAI
Ή αυτό το animation ενός λουλουδιού που ανθίζει:
Συντελεστές εικόνας:
OpenAI
Θα πω ότι μερικά από τα βίντεο του Sora με ένα ανθρωποειδές θέμα – ένα
ρομπότ
που στέκεται σε ένα αστικό τοπίο, για παράδειγμα, ή ένα άτομο που περπατά σε ένα χιονισμένο μονοπάτι – έχουν μια ποιότητα βιντεοπαιχνιδιού, ίσως επειδή δεν συμβαίνουν πολλά στο παρασκήνιο. Η παράξενη τεχνητή νοημοσύνη καταφέρνει να εισχωρήσει σε πολλά κλιπ, όπως τα αυτοκίνητα που οδηγούν προς μια κατεύθυνση και μετά κάνουν ξαφνική όπισθεν ή τα χέρια λιώνουν σε ένα παπλωματοθήκη.
Συντελεστές εικόνας:
OpenAI
Το OpenAI — με όλα τα υπερθετικά του — αναγνωρίζει ότι το μοντέλο δεν είναι τέλειο. Γράφει:
“[Sora] μπορεί να δυσκολεύεται με την ακριβή προσομοίωση της φυσικής μιας περίπλοκης σκηνής και μπορεί να μην κατανοεί συγκεκριμένες περιπτώσεις αιτίας και αποτελέσματος. Για παράδειγμα, ένα άτομο μπορεί να πάρει μια μπουκιά από ένα cookie, αλλά στη συνέχεια, το cookie μπορεί να μην έχει σημάδι δαγκώματος. Το μοντέλο μπορεί επίσης να μπερδεύει τις χωρικές λεπτομέρειες μιας προτροπής, για παράδειγμα, να αναμιγνύει αριστερά και δεξιά και μπορεί να δυσκολεύεται με ακριβείς περιγραφές γεγονότων που λαμβάνουν χώρα με την πάροδο του χρόνου, όπως η παρακολούθηση μιας συγκεκριμένης τροχιάς κάμερας.»
Το OpenAI τοποθετεί πολύ το Sora ως προ
επισκόπηση
έρευνας, αποκαλύπτοντας λίγα σχετικά με τα δεδομένα που χρησιμοποιήθηκαν για την εκπαίδευση του μοντέλου (λίγο από ~ 10.000 ώρες βίντεο “υψηλής ποιότητας”) και αποφεύγοντας να κάνει το Sora γενικά διαθέσιμο. Το σκεπτικό του είναι η πιθανότητα κατάχρησης. Το OpenAI σωστά επισημαίνει ότι οι κακοί ηθοποιοί θα μπορούσαν να κάνουν κακή χρήση ενός μοντέλου όπως ο Sora με μυριάδες τρόπους.
Η OpenAI λέει ότι συνεργάζεται με ειδικούς για να διερευνήσει το μοντέλο για εκμεταλλεύσεις και εργαλεία κατασκευής για να ανιχνεύσει εάν ένα βίντεο δημιουργήθηκε από τον Sora. Η εταιρεία λέει επίσης ότι, σε περίπτωση που επιλέξει να δημιουργήσει το μοντέλο σε ένα προϊόν δημοσίως, θα διασφαλίσει ότι τα μεταδεδομένα προέλευσης περιλαμβάνονται στα παραγόμενα αποτελέσματα.
«Θα δεσμεύσουμε φορείς χάραξης πολιτικής, εκπαιδευτικούς και καλλιτέχνες σε όλο τον κόσμο για να κατανοήσουν τις ανησυχίες τους και να εντοπίσουν θετικές περιπτώσεις χρήσης αυτής της νέας τεχνολογίας», γράφει το OpenAI. «Παρά την εκτεταμένη έρευνα και τις δοκιμές, δεν μπορούμε να προβλέψουμε όλους τους ευεργετικούς τρόπους με τους οποίους οι άνθρωποι θα χρησιμοποιήσουν την τεχνολογία μας, ούτε όλους τους τρόπους με τους οποίους οι άνθρωποι θα την κάνουν κατάχρηση. Γι’ αυτό πιστεύουμε ότι η
μάθηση
από τη χρήση του πραγματικού κόσμου είναι ένα κρίσιμο συστατικό για τη δημιουργία και την απελευθέρωση όλο και πιο ασφαλών συστημάτων τεχνητής νοημοσύνης με την πάροδο του χρόνου».
VIA:
techcrunch.com

