Το Meta λειτουργεί σε Emu Video και Emu Edit: Generative AI tricks για GIF, φωτογραφίες και βίντεο 4 δευτερολέπτων
Ο Meta ανακοινώνει μέσω α
ανάρτηση
ότι είναι απασχολημένοι με τη νέα έρευνα για την «ελεγχόμενη επεξεργασία εικόνας που βασίζεται αποκλειστικά σε οδηγίες κειμένου και μια μέθοδο για τη δημιουργία κειμένου σε βίντεο με βάση μοντέλα διάχυσης».
Που, με πιο απλά λόγια, σημαίνει ότι θέλουν να βάλουν στο Facebook και το Instagram εργαλεία τεχνητής νοημοσύνης που δημιουργούνται. Τα έργα που
αναπτύσσει
η Meta ονομάζονται Emu Video και Emu Edit.
Τι είναι το Emu Video;
Αυτό το εργαλείο, όπως υποδηλώνει το όνομα, είναι για τη δημιουργία βίντεο. Η Meta την περιγράφει ως «μια απλή μέθοδο για τη δημιουργία κειμένου σε βίντεο που βασίζεται σε μοντέλα διάχυσης». Το Emu Video θα πρέπει να ανταποκρίνεται σε μια ποικιλία εισόδων: μόνο κείμενο, μόνο εικόνα και κείμενο και εικόνα. Η διαδικασία χωρίζεται σε δύο βήματα, διευκρινίζει το Meta: πρώτα, δημιουργία εικόνων που εξαρτώνται από μια προτροπή κειμένου και, στη συνέχεια, δημιουργία βίντεο που εξαρτάται τόσο από το κείμενο όσο και από την εικόνα που δημιουργείται.
Η υπερσύγχρονη προσέγγισή μας είναι απλή στην εφαρμογή και χρησιμοποιεί μόνο δύο μοντέλα διάχυσης για τη δημιουργία βίντεο 512×512 τεσσάρων δευτερολέπτων με ταχύτητα 16 καρέ ανά δευτερόλεπτο.
Τι είναι το Emu Edit;
Αυτό θα πρέπει να επιτρέπει την «ακριβή επεξεργασία εικόνας» μέσω εργασιών αναγνώρισης και δημιουργίας. Όπως λέει ο Meta, η χρήση της γενετικής τεχνητής νοημοσύνης είναι συχνά μια διαδικασία, όχι μια ενιαία εργασία.
«Το Emu Edit είναι ικανό για επεξεργασία ελεύθερης μορφής μέσω οδηγιών, που περιλαμβάνει εργασίες όπως τοπική και καθολική επεξεργασία, αφαίρεση και προσθήκη φόντου, μετασχηματισμούς χρώματος και γεωμετρίας, εντοπισμό και τμηματοποίηση και πολλά άλλα. Οι τρέχουσες μέθοδοι συχνά κλίνουν είτε προς την υπερβολική τροποποίηση είτε την υποαπόδοση σε διάφορες εργασίες επεξεργασίας. Υποστηρίζουμε ότι ο πρωταρχικός στόχος δεν πρέπει να είναι απλώς η παραγωγή μιας «απίστευτης» εικόνας. Αντίθετα, το
μοντέλο
θα πρέπει να επικεντρωθεί στην ακριβή αλλαγή μόνο των
pixel
που σχετίζονται με το αίτημα επεξεργασίας. Σε αντίθεση με πολλά μοντέλα παραγωγής τεχνητής νοημοσύνης
σήμερα
, το Emu Edit ακολουθεί με ακρίβεια τις οδηγίες, διασφαλίζοντας ότι τα pixel στην εικόνα εισόδου που δεν σχετίζονται με τις οδηγίες παραμένουν ανέγγιχτα. Για παράδειγμα, όταν προσθέτετε το κείμενο “Aloha!” σε ένα καπάκι του μπέιζμπολ, το ίδιο το καπάκι θα πρέπει να παραμείνει αμετάβλητο», λέει η ομάδα Meta.
Οι πιθανές περιπτώσεις χρήσης
Ο δρόμος μπροστά είναι σίγουρα τεχνητής νοημοσύνης για τη Meta.
«Αν και αυτή η εργασία είναι καθαρά θεμελιώδης έρευνα αυτή τη στιγμή, οι πιθανές περιπτώσεις χρήσης είναι ξεκάθαρα προφανείς. Φανταστείτε να δημιουργείτε τα δικά σας κινούμενα αυτοκόλλητα ή έξυπνα GIF εν κινήσει για να τα στείλετε στην ομαδική συνομιλία αντί να χρειάζεται να αναζητήσετε τα τέλεια μέσα για την απάντησή σας. Ή να επεξεργαστείτε τις δικές σας
φωτογραφίες
και εικόνες, δεν απαιτούνται τεχνικές δεξιότητες. Ή προσθέτοντας λίγη επιπλέον ώθηση στις αναρτήσεις σας στο Instagram κάνοντας κίνηση στατικών φωτογραφιών. Ή να δημιουργήσετε κάτι εντελώς νέο», καταλήγει η ανάρτηση στο blog.
VIA:
phonearena.com
