Το Voicebox AI της Meta είναι ένα Dall-E για μετατροπή κειμένου σε ομιλία
Σήμερα, είμαστε ένα βήμα πιο κοντά στο αθάνατο μέλλον των διασημοτήτων που μας έχουν υποσχεθεί εδώ και καιρό (από τον Απρίλιο). Η
Meta
αποκάλυψε το Voicebox, το μοντέλο παραγωγής κειμένου σε ομιλία που υπόσχεται να κάνει για τον προφορικό λόγο ό,τι έκαναν το
ChatGPT
και το Dall-E, με σεβασμό, για τη δημιουργία κειμένου και εικόνων.
Ουσιαστικά, είναι μια γεννήτρια κειμένου σε έξοδο όπως το GPT ή το Dall-E — απλώς αντί να δημιουργεί πρόζα ή όμορφες εικόνες, βγάζει κλιπ ήχου. Η Meta ορίζει το σύστημα ως «ένα μη αυτοπαλινδρομικό μοντέλο αντιστοίχισης ροής εκπαιδευμένο να συμπληρώνει ομιλία, δεδομένου του ηχητικού περιβάλλοντος και του κειμένου». Έχει εκπαιδευτεί σε περισσότερες από 50.000 ώρες αφιλτραρισμένου ήχου. Συγκεκριμένα, ο Meta χρησιμοποίησε ηχογραφημένη ομιλία και μεταγραφές από μια δέσμη ηχητικών βιβλίων δημόσιου τομέα γραμμένα στα Αγγλικά, Γαλλικά, Ισπανικά, Γερμανικά, Πολωνικά και Πορτογαλικά.
Αυτό το ποικίλο σύνολο δεδομένων επιτρέπει στο σύστημα να παράγει περισσότερη ομιλία, ανεξάρτητα από τις γλώσσες που ομιλεί κάθε μέρος, σύμφωνα με τους ερευνητές. «Τα αποτελέσματά μας δείχνουν ότι τα μοντέλα αναγνώρισης ομιλίας που έχουν εκπαιδευτεί σε συνθετική ομιλία που δημιουργείται από το Voicebox έχουν σχεδόν εξίσου καλά αποτελέσματα με τα μοντέλα που έχουν εκπαιδευτεί σε πραγματική ομιλία». Επιπλέον, η ομιλία που παράγεται από υπολογιστή εκτελείται με υποβάθμιση του ποσοστού σφάλματος μόλις 1 τοις εκατό, σε σύγκριση με την πτώση 45 έως 70 τοις εκατό που παρατηρείται με τα υπάρχοντα μοντέλα TTS.
Το σύστημα διδάχθηκε αρχικά να προβλέπει τμήματα ομιλίας με βάση τα τμήματα γύρω από αυτά καθώς και τη μεταγραφή του αποσπάσματος. «Έχοντας μάθει να συμπληρώνει την ομιλία από το περιβάλλον, το μοντέλο μπορεί στη συνέχεια να το εφαρμόσει σε εργασίες παραγωγής ομιλίας, συμπεριλαμβανομένης της δημιουργίας τμημάτων στη μέση μιας ηχογράφησης χωρίς να χρειάζεται να αναδημιουργήσει ολόκληρη την είσοδο», εξήγησαν οι ερευνητές του Meta.
Το Voicebox φέρεται επίσης να μπορεί να επεξεργάζεται ενεργά ηχητικά κλιπ, να εξαλείφει τον θόρυβο από την ομιλία και ακόμη και να αντικαθιστά λανθασμένες λέξεις. «Ένα άτομο θα μπορούσε να εντοπίσει ποιο ακατέργαστο τμήμα της ομιλίας είναι αλλοιωμένο από τον θόρυβο (όπως ένα σκυλί που γαβγίζει), να το περικόψει και να δώσει εντολή στο μοντέλο να αναγεννήσει αυτό το τμήμα», είπαν οι ερευνητές, όπως η χρήση λογισμικού επεξεργασίας εικόνας για τον καθαρισμό φωτογραφιών. .
Οι γεννήτριες μετατροπής κειμένου σε ομιλία υπάρχουν εδώ και ένα λεπτό — είναι ο τρόπος με τον οποίο οι TomTom των γονιών σας μπόρεσαν να δώσουν δυσάρεστες οδηγίες οδήγησης με τη φωνή του Morgan Freeman. Σύγχρονες επαναλήψεις όπως
Βγάζω λόγον
ή
Το Prime Voice AI της Elevenlab
είναι πολύ πιο ικανοί, αλλά εξακολουθούν να απαιτούν σε μεγάλο βαθμό βουνά από πηγαίο υλικό για να μιμηθούν σωστά το θέμα τους — και στη συνέχεια ένα άλλο βουνό διαφορετικών δεδομένων για τον καθένα. μονόκλινο. άλλα. θέμα στο οποίο θέλετε να εκπαιδευτείτε.
Το Voicebox δεν το κάνει, χάρη σε μια νέα μέθοδο εκπαίδευσης μηδενικής λήψης κειμένου σε ομιλία, η Meta καλεί Flow Matching. Τα αποτελέσματα αναφοράς δεν είναι καν κοντά, καθώς η τεχνητή νοημοσύνη του Meta φέρεται να ξεπέρασε την τρέχουσα κατάσταση της τέχνης τόσο σε κατανοητό (1,9 τοις εκατό ποσοστό λάθους λέξης έναντι 5,9 τοις εκατό) όσο και σε “ομοιότητα ήχου” (σύνθετη βαθμολογία 0,681 προς 0,580 του SOA). όλα αυτά ενώ λειτουργούν έως και 20 φορές πιο γρήγορα από τα καλύτερα συστήματα TTS του σήμερα.
Αλλά μην βάζετε τους πλοηγούς διασημοτήτων σας ακόμα στη σειρά, ούτε η εφαρμογή Voicebox ούτε ο πηγαίος κώδικας της κυκλοφορούν στο κοινό αυτή τη στιγμή, επιβεβαίωσε η Meta την Παρασκευή, αναφέροντας «τους πιθανούς κινδύνους κακής χρήσης» παρά την «πολλές συναρπαστική χρήση θήκες για παραγωγικά μοντέλα ομιλίας.” Αντίθετα, η εταιρεία κυκλοφόρησε μια σειρά ηχητικών παραδειγμάτων (βλ. παραπάνω/κάτω) καθώς και μια αρχική ερευνητική εργασία του προγράμματος. Στο μέλλον, η ερευνητική ομάδα ελπίζει ότι η τεχνολογία θα βρει τον δρόμο της στην προσθετική για ασθενείς με βλάβη φωνητικών χορδών, NPC εντός του παιχνιδιού και ψηφιακούς βοηθούς.


