Η τεχνητή νοημοσύνη της Alibaba δημιούργησε μια εκπληκτική εκτέλεση τραγουδιού με τη Σόρα

By

Marizas Dimitris

On

Μαρ 1, 2024

Η Alibaba θέλει να συγκρίνετε τη νέα της συσκευή δημιουργίας

βίντεο

AI με τη Sora του OpenAI. Διαφορετικά, γιατί να το χρησιμοποιήσετε για να φτιάξετε την πιο διάσημη ζώνη δημιουργίας του Sora σε τραγούδι της Dua Lipa;

Την Τρίτη,

ένας

οργανισμός που ονομάζεται “Ινστιτούτο Ευφυούς Υπολογισμού” εντός του κινεζικού ηλεκτρονικού εμπορίου Alibaba κυκλοφόρησε ένα

χαρτί

σχετικά με μια συναρπαστική νέα συσκευή δημιουργίας βίντεο AI που έχει αναπτύξει που είναι σοκαριστικά καλή στο να μετατρέπει στατικές εικόνες προσώπων σε βατούς ηθοποιούς και χαρισματικούς τραγουδιστές. Το σύστημα ονομάζεται EMO, ένα διασκεδαστικό backronym που υποτίθεται ότι προέρχεται από τις λέξεις “Emotive Portrait Alive” (αν και, σε αυτήν την περίπτωση, γιατί δεν ονομάζεται “EPO”;).

Το EMO είναι μια ματιά σε ένα μέλλον όπου ένα σύστημα όπως το Sora δημιουργεί κόσμους βίντεο και αντί να κατοικείται από

ελκυστικοί βουβοί άνθρωποι απλώς κοιτάζουν ο ένας τον άλλον

οι «ηθοποιοί» σε αυτές τις δημιουργίες τεχνητής νοημοσύνης λένε πράγματα — ή ακόμα και τραγουδούν.

<br />

Η Alibaba έβαλε βίντεο επίδειξης στο GitHub για να αναδείξει το νέο της πλαίσιο δημιουργίας βίντεο. Αυτά περιλαμβάνουν ένα βίντεο της κυρίας Sora – διάσημη για το ότι περπατάει στο Τόκιο που δημιουργήθηκε από την τεχνητή νοημοσύνη αμέσως μετά από μια καταιγίδα – να τραγουδά το “Don’t Start Now” από τη Dua Lipa και να γίνεται πολύ αστεία με αυτό.

Τα demo αποκαλύπτουν επίσης πώς το EMO μπορεί, για να αναφέρω ένα παράδειγμα, να κάνει την Audrey Hepburn να μιλήσει τον ήχο από ένα viral κλιπ του

Ρίβερντεϊλ

Η Lili Reinhart μιλάει για το πόσο της αρέσει να κλαίει. Σε αυτό το κλιπ, το κεφάλι της Hepburn διατηρεί μια μάλλον όρθια θέση σαν στρατιώτη, αλλά ολόκληρο το πρόσωπό της – όχι μόνο το στόμα της – φαίνεται πραγματικά να εκπέμπει τις λέξεις στον ήχο.

ΔΕ

ΙΤ

Ε ΕΠΙΣΗΣ:

Σε τι εκπαιδεύτηκε η Σόρα; Οι δημιουργικοί απαιτούν απαντήσεις.

Σε αντίθεση με αυτή την παράξενη εκδοχή της Χέπμπορν, ο Ράινχαρτ

στο αρχικό κλιπ

κουνάει πολύ το κεφάλι της και έχει επίσης πολύ διαφορετικά συναισθήματα, οπότε το EMO δεν φαίνεται να είναι ένα riff για το είδος της αλλαγής προσώπου AI που έγινε viral στα μέσα της δεκαετίας του 2010 και οδήγησε σε

η άνοδος των deepfakes το 2017

.

Τα τελευταία χρόνια, έχουν εμφανιστεί εφαρμογές που έχουν σχεδιαστεί για τη δημιουργία κινούμενων σχεδίων προσώπου από ήχο, αλλά δεν ήταν και τόσο εμπνευσμένες. Για παράδειγμα, το πακέτο λογισμικού NVIDIA Omniverse διαφημίζει μια εφαρμογή με ένα

πλαίσιο ήχου σε πρόσωπο κινούμενων σχεδίων

ονομάζεται “Audio2Face” — το οποίο βασίζεται σε τρισδιάστατα κινούμενα σχέδια για τις εξόδους του αντί να δημιουργεί απλώς φωτορεαλιστικό βίντεο όπως το EMO.

Παρά το γεγονός ότι το Audio2Face είναι μόλις δύο ετών, το demo του EMO το κάνει να μοιάζει με αντίκα. Σε ένα βίντεο που φέρεται να επιδεικνύει την ικανότητά του να μιμείται συναισθήματα ενώ μιλάει, το τρισδιάστατο

πρόσωπο

που

απε

ικονίζει μοιάζει περισσότερο με μαριονέτα με μάσκα έκφρασης προσώπου, ενώ οι χαρακτήρες του EMO φαίνεται να εκφράζουν τις αποχρώσεις του περίπλοκου συναισθήματος που συναντάμε σε κάθε ηχητικό κλιπ .

<br />

Αξίζει να σημειωθεί σε αυτό το σημείο ότι, όπως και με το Sora, αξιολογούμε αυτό το πλαίσιο τεχνητής νοημοσύνης με βάση μια επίδειξη που παρέχεται από τους δημιουργούς του και στην πραγματικότητα δεν έχουμε στα χέρια μας μια χρησιμοποιήσιμη έκδοση που μπορούμε να δοκιμάσουμε. Επομένως, είναι δύσκολο να φανταστεί κανείς ότι έξω από την πύλη αυτό το κομμάτι λογισμικού μπορεί να αναπαράγει τόσο πειστικά ανθρώπινες παραστάσεις προσώπου βασισμένες σε ήχο χωρίς σημαντικές δοκιμές και σφάλματα ή λεπτομέρεια για συγκεκριμένες εργασίες.

Οι χαρακτήρες στα demos δεν εκφράζουν ως επί το πλείστον λόγο που απαιτεί ακραία συναισθήματα – για παράδειγμα πρόσωπα που έχουν ξεσηκωθεί από την οργή ή λιώνουν σε δάκρυα – επομένως μένει να δούμε πώς το EMO θα χειριζόταν τα βαριά συναισθήματα με τον ήχο μόνο ως οδηγό του . Επιπλέον, παρά το γεγονός ότι κατασκευάζεται στην Κίνα, απεικονίζεται ως μια ολική πολυγλωσσία, ικανή να συλλάβει τη φωνητική των αγγλικών και κορεατικών και να κάνει τα πρόσωπα να σχηματίζουν τα κατάλληλα φωνήματα με αξιοπρεπή — αν και κάθε άλλο παρά τέλεια — πιστότητα. Με άλλα λόγια, θα ήταν ωραίο να δούμε τι θα συνέβαινε αν βάζατε τον ήχο ενός πολύ θυμωμένου ατόμου που μιλά μια λιγότερο γνωστή γλώσσα στο EMO για να δείτε πόσο καλά απέδωσε.

Επίσης συναρπαστικές είναι οι μικρές διακοσμήσεις ανάμεσα στις φράσεις – σφιγμένα χείλη ή μια ματιά προς τα κάτω – που εισάγουν συναισθήματα στις παύσεις και όχι μόνο στις στιγμές που τα χείλη κινούνται. Αυτά είναι παραδείγματα του πώς ένα πραγματικό ανθρώπινο πρόσωπο έχει συναισθήματα και είναι δελεαστικό να βλέπεις το EMO να τα κάνει τόσο σωστά, ακόμη και σε ένα τόσο περιορισμένο demo.

Σύμφωνα με την εφημερίδα, το μοντέλο του EMO βασίζεται σε ένα μεγάλο σύνολο δεδομένων ήχου και βίντεο (για άλλη μια φορά: από πού;) για να του δώσει τα απαραίτητα σημεία αναφοράς για να συναισθανόμαστε τόσο ρεαλιστικά. Και η προσέγγισή του που βασίζεται στη διάχυση προφανώς δεν περιλαμβάνει ένα ενδιάμεσο βήμα στο οποίο τα τρισδιάστατα μοντέλα κάνουν μέρος της δουλειάς. ΕΝΑ

μηχανισμός αναφοράς-προσοχής

και ένα ξεχωριστό

μηχανισμός ακουστικής προσοχής

συνδυάζονται με το μοντέλο του EMO για να παρέχουν κινούμενους χαρακτήρες των οποίων οι κινούμενες εικόνες ταιριάζουν με αυτό που εμφανίζεται στον ήχο, ενώ παραμένουν πιστές στα χαρακτηριστικά του προσώπου της παρεχόμενης βασικής εικόνας.

Είναι μια εντυπωσιακή συλλογή από demo, και αφού τα παρακολουθήσετε είναι αδύνατο να μην φανταστείτε τι θα ακολουθήσει. Αλλά αν βγάζετε τα χρήματά σας ως ηθοποιός, προσπαθήστε να μην φανταστείτε πολύ σκληρά, γιατί τα πράγματα γίνονται αρκετά ανησυχητικά πολύ γρήγορα.

Θέματα

Τεχνητή νοημοσύνη

VIA:

mashable.com

Η τεχνητή νοημοσύνη της Alibaba δημιούργησε μια εκπληκτική εκτέλεση τραγουδιού με τη Σόρα

Απάντηση Ακύρωση απάντησης

Απάντηση

Ακύρωση απάντησης