Ανακαλύψτε το Emote Portrait Live της Alibaba AI
Ευχηθήκατε ποτέ οι φωτογραφίες σας να μιλήσουν ή να τραγουδήσουν; Γνωρίστε το EMO, συντομογραφία του Emote Portrait Alive. Αναπτύχθηκε από ερευνητές στο Ινστιτούτο Ευφυών Υπολογιστών της Alibaba, το EMO είναι ένα σύστημα τεχνητής νοημοσύνης που έχει σχεδιαστεί για να κάνει ακριβώς αυτό.
Το EMO ακολουθεί μια μοναδική προσέγγιση στα κινούμενα σχέδια, παρακάμπτοντας πολύπλοκα τρισδιάστατα μοντέλα μετατρέποντας απευθείας τον ήχο σε καρέ βίντεο. Αυτό σημαίνει ότι τα βίντεό σας κινουμένων σχεδίων διατηρούν τις φυσικές κινήσεις και εκφράσεις του λόγου ή του τραγουδιού, όλα από μία φωτογραφία και ηχητικό κλιπ.
Πίστωση εικόνας
)
Alibaba AI: Τι είναι το Emote Portrait Alive (EMO);
Το EMO, ή Emote Portrait Alive, είναι ένα σύστημα τεχνητής νοημοσύνης που αναπτύχθηκε από ερευνητές στο Ινστιτούτο Ευφυών Υπολογιστών της Alibaba. Η κύρια λειτουργία του είναι να
κινούμενες φωτογραφίες στατικών πορτρέτων
δημιουργώντας βίντεο όπου το θέμα φαίνεται να μιλάει ή να τραγουδά ρεαλιστικά.
Αυτό που ξεχωρίζει το EMO είναι η προσέγγισή του στη δημιουργία αυτών των κινούμενων εικόνων. Αντί να βασίζεται σε παραδοσιακές μεθόδους που συχνά αγωνίζονται να συλλάβουν τις αποχρώσεις της ανθρώπινης έκφρασης, το EMO μετατρέπει απευθείας τις κυματομορφές ήχου σε καρέ βίντεο. Αυτό σημαίνει ότι δεν χρειάζεται ενδιάμεσα τρισδιάστατα μοντέλα ή ορόσημα προσώπου για τη δημιουργία κινούμενων εικόνων. Αντίθετα, εστιάζει στην καταγραφή λεπτών κινήσεων του προσώπου και μεμονωμένων στυλ προσώπου που σχετίζονται με τη φυσική ομιλία.
Μόλις στο 👀
αυτό είναι το πιο εκπληκτικό audio2video που έχω δει ποτέ.
Ονομάζεται EMO: Emote Portrait Alive
pic.twitter.com/3b1AQMzPYu
— Stelfie the Time Traveler (@StelfieTT)
28 Φεβρουαρίου 2024
Η τεχνολογία που τροφοδοτεί το EMO βασίζεται σε ένα μοντέλο διάχυσης, το οποίο είναι γνωστό για την ικανότητά του να δημιουργεί ρεαλιστικές συνθετικές εικόνες. Για να εκπαιδεύσουν το σύστημα, οι ερευνητές χρησιμοποίησαν ένα μεγάλο σύνολο δεδομένων ομιλούντων βίντεο από διάφορες πηγές, συμπεριλαμβανομένων ομιλιών, ταινιών, τηλεοπτικών εκπομπών και μουσικών παραστάσεων. Αυτή η εκτεταμένη εκπαίδευση επιτρέπει στο EMO να παράγει βίντεο υψηλής ποιότητας διατηρώντας παράλληλα την ταυτότητα του θέματος και μεταδίδοντας εκφραστικότητα.
Εκτός από τη δημιουργία βίντεο συνομιλίας, το EMO μπορεί επίσης να κάνει κινούμενα πορτρέτα τραγουδιού. Ο συγχρονισμός των σχημάτων του στόματος και των εκφράσεων του προσώπου με τα φωνητικά μπορεί να δημιουργήσει βίντεο τραγουδιού σε διαφορετικά στυλ και διάρκεια.

Πίστωση εικόνας
)
Ενώ η ανάπτυξη του EMO παρουσιάζει συναρπαστικές δυνατότητες για εξατομικευμένη δημιουργία περιεχομένου βίντεο, εγείρει επίσης ηθικούς προβληματισμούς. Υπάρχει κίνδυνος κακής χρήσης, όπως π.χ
μίμηση
ή η εξάπλωση του
κακή πληροφορία
. Ως εκ τούτου, είναι σημαντικό να προσεγγίζουμε την ανάπτυξη μιας τέτοιας τεχνολογίας με προσοχή και να διασφαλίζουμε ότι υπάρχουν κατάλληλες διασφαλίσεις για την αντιμετώπιση αυτών των ηθικών ανησυχιών.
Το Pika Lip Sync κάνει τα βίντεο που δημιουργούνται από AI να μιλάνε επίσης
Πώς λειτουργεί το EMO;
Το σύστημα EMO λειτουργεί σε δύο κύρια στάδια: Κωδικοποίηση πλαισίων και Διαδικασία διάχυσης.
-
Κωδικοποίηση πλαισίων
: Εξάγει χαρακτηριστικά από εικόνες αναφοράς και καρέ κίνησης για να δημιουργήσει τα θεμέλια για κινούμενα σχέδια. -
Διαδικασία διάχυσης
: Χρησιμοποιεί έναν προκαταρτισμένο κωδικοποιητή ήχου για την επεξεργασία της εισόδου ήχου. Ενσωματώνει μάσκες περιοχής προσώπου με θόρυβο πολλαπλών καρέ για δημιουργία κινούμενων εικόνων. Το Backbone Network απενεργοποιεί τα κινούμενα σχέδια, με τη βοήθεια μηχανισμών αναφοράς-προσοχής και ήχου-προσοχής. Οι χρονικές μονάδες προσαρμόζουν την ταχύτητα κίνησης.
Τι μπορείτε να κάνετε με το EMO;
Το EMO προσφέρει ένα ευέλικτο εργαλείο για τη δημιουργία ζωντανών κινούμενων βίντεο, διευρύνοντας τις δυνατότητες για εξατομικευμένη και εκφραστική δημιουργία περιεχομένου, όπως:
-
Τραγούδι
: Δημιουργεί φωνητικά βίντεο avatar με εκφραστικές εκφράσεις προσώπου συγχρονισμένες με εισόδους ήχου τραγουδιού.

Πίστωση εικόνας
)
-
Γλώσσα & Στυλ
: Υποστηρίζει διάφορες γλώσσες και στυλ πορτρέτου, καταγράφοντας τονικές παραλλαγές για δυναμικά κινούμενα σχέδια avatar. -
Γρήγορος ρυθμός
: Εξασφαλίζει συγχρονισμό κινούμενων εικόνων χαρακτήρων με γρήγορους ρυθμούς. -
Ομιλία
: Κινούμενα πορτρέτα ως απόκριση σε προφορικές εισόδους ήχου σε διάφορες γλώσσες και στυλ. -
Διαδραστική ερμηνεία
: Απεικονίζει χαρακτήρες από ταινίες ή άλλα μέσα σε πολυγλωσσικά και πολυπολιτισμικά πλαίσια.
Συνοπτικά, το EMO, γνωστό και ως Emote Portrait Alive, είναι μια σημαντική πρόοδος στην τεχνολογία κινούμενων σχεδίων. Μπορεί να μετατρέψει ακίνητες εικόνες σε ζωντανά βίντεο όπου τα θέματα φαίνεται να μιλάνε ή να τραγουδούν ρεαλιστικά. Το EMO το επιτυγχάνει μετατρέποντας απευθείας τον ήχο σε καρέ βίντεο, καταγράφοντας με ακρίβεια τις εκφράσεις και τις κινήσεις του προσώπου. Ενώ το EMO προσφέρει συναρπαστικές δυνατότητες για τη δημιουργία δυναμικού οπτικού περιεχομένου, πρέπει να αντιμετωπιστούν οι ηθικές ανησυχίες σχετικά με την πιθανή κακή χρήση του. Παρόλα αυτά, το EMO παρουσιάζει ένα πολύτιμο εργαλείο για τη ζωντανή ζωή των ακίνητων εικόνων και μπορεί ενδεχομένως να μεταμορφώσει τον τρόπο αλληλεπίδρασης με τα οπτικά μέσα στο μέλλον.
Για πιο αναλυτικές πληροφορίες,
εδώ
είναι η ερευνητική του εργασία.
Πίστωση επιλεγμένης εικόνας:
EMO: Έρευνα Emote Portrait Alive
VIA:
DataConomy.com

