Η Microsoft Research αναστατώνει τον κόσμο της τεχνητής νοημοσύνης με το νέο της πειραματικό εργαλείο VASA-1. Πρόκειται για μια AI που μπορεί να μετατρέψει μια στατική εικόνα προσώπου – ακόμα και σχέδιο – σε ένα ρεαλιστικό βίντεο που μιλάει, σε πραγματικό χρόνο! Το VASA-1 δημιουργεί εκφράσεις και κινήσεις κεφαλής που συγχρονίζονται τέλεια με υπάρχον ηχητικό αρχείο, είτε πρόκειται για ομιλία ή τραγούδι. Στη σελίδα του project υπάρχουν πολλά παραδείγματα, τόσο καλοφτιαγμένα που θα μπορούσαν να ξεγελάσουν ακόμα και παρατηρητικό θεατή.
Αν και σε προσεκτική παρατήρηση οι κινήσεις των χειλιών και του κεφαλιού στα παραδείγματα μπορεί να φαίνονται λίγο ρομποτικές και εκτός συγχρονισμού, η δυνατότητα κατάχρησης της τεχνολογίας είναι ξεκάθαρη. Με το VASA-1 θα μπορούσαν να δημιουργηθούν εύκολα και γρήγορα deepfakes video πραγματικών ανθρώπων. Οι ερευνητές της Microsoft αναγνωρίζουν αυτόν τον κίνδυνο και προς το παρόν δεν προτίθενται να δημοσιεύσουν “online demo, API, εμπορικό προϊόν, πρόσθετες λεπτομέρειες υλοποίησης ή οποιαδήποτε σχετική υπηρεσία” μέχρι να βεβαιωθούν ότι η τεχνολογία τους “θα χρησιμοποιηθεί με υπευθυνότητα και σύμφωνα με τους κανονισμούς.” Δεν αναφέρθηκε, ωστόσο, αν σχεδιάζουν να εφαρμόσουν συγκεκριμένους περιορισμούς για να αποτρέψουν κακόβουλη χρήση, όπως τη δημιουργία deepfake πορνό ή fake news.
Παρά τις ανησυχίες, οι ερευνητές πιστεύουν πως το VASA-1 έχει τεράστιες δυνατότητες για θετικές εφαρμογές. Μπορεί να βοηθήσει στην ισότιμη πρόσβαση στην εκπαίδευση, να βελτιώσει την επικοινωνία για άτομα με δυσκολίες, χαρίζοντάς τους ίσως ένα avatar που να μιλάει εκ μέρους τους. Επιπλέον, θα μπορούσε να προσφέρει συντροφιά και θεραπευτική υποστήριξη σε ανθρώπους που τη χρειάζονται, ανοίγοντας το δρόμο για προγράμματα με AI χαρακτήρες που θα μπορούν να συνομιλούν οι χρήστες.
Σύμφωνα με την ερευνητική εργασία που δημοσιεύτηκε μαζί με την ανακοίνωση, το VASA-1 εκπαιδεύτηκε με το σύνολο δεδομένων VoxCeleb2, το οποίο περιέχει “πάνω από 1 εκατομμύριο φράσεις από 6.112 διασημότητες” που εξήχθησαν από βίντεο του YouTube. Παρόλο που το εργαλείο εκπαιδεύτηκε με πραγματικά πρόσωπα, λειτουργεί και με καλλιτεχνικές φωτογραφίες, όπως η Μόνα Λίζα. Οι ερευνητές, με χιουμοριστική διάθεση, την συνδύασαν με ηχογράφηση της viral ερμηνείας του τραγουδιού Paparazzi του Lil Wayne από την Anne Hathaway. Το αποτέλεσμα είναι απολαυστικό και αξίζει να το δείτε, ακόμα κι αν αναρωτιέστε για τη χρησιμότητα μιας τέτοιας τεχνολογίας.