Η Meta ανακοινώνει το Voicebox, το παραγωγικό μοντέλο AI για ήχο

On

Ιούν 16, 2023

Σήμερα,

Το Meta ανακοίνωσε

Το πιο πρόσφατο μοντέλο τεχνητής νοημοσύνης, που ακολουθεί στο πίσω μέρος του ImageBind, είναι το Voicebox, το οποίο έχει σχεδιαστεί για να βοηθά τους δημιουργούς με την ικανότητά του να εκτελεί εργασίες παραγωγής ομιλίας, όπως επεξεργασία ήχου, δειγματοληψία και στυλιζάρισμα, ακόμα κι αν δεν έχει εκπαιδευτεί ειδικά για να το κάνει μέσω μάθηση εντός πλαισίου.

Η

Meta

διαφημίζει ότι αυτό το νέο μοντέλο τεχνητής νοημοσύνης θα έχει οφέλη σε πολλούς ανθρώπους σε όλο τον κόσμο και χρησιμοποιεί παραδείγματα όπως το να βοηθά τα άτομα με προβλήματα όρασης να ακούν γραπτά μηνύματα από φίλους στη φωνή τους, καθώς και να επιτρέπει στους ανθρώπους να μιλούν ξένες γλώσσες με τη δική τους φωνή.

Το ίδιο το μοντέλο AI μπορεί να παράγει κλιπ ήχου υψηλής ποιότητας και να επεξεργάζεται προηχογραφημένο ήχο για να αφαιρέσει ανεπιθύμητες διακοπές, όπως κόρνες αυτοκινήτου, ενώ διατηρεί το περιεχόμενο και το στυλ του ήχου ενώ είναι πολύγλωσσο, παράγοντας ομιλία σε έξι γλώσσες. Οι μελλοντικές εξελίξεις για το μοντέλο περιλαμβάνουν την παροχή φωνών με φυσικό ήχο σε οπτικούς βοηθούς ή χαρακτήρες που δεν παίζουν κατά τη διάρκεια παιχνιδιών στο metaverse.

Η Meta έχει επίσης συγκρίνει το Voicebox με άλλα μοντέλα τεχνητής νοημοσύνης ήχου εκεί έξω, ονομάζοντας συγκεκριμένα το Vall-E και το YourTTS ως ανταγωνιστές, αποδεικνύοντας ότι το Voicebox είναι πιο προηγμένο και ξεπερνά και τα δύο μοντέλα όταν συγκρίνει τα ποσοστά σφαλμάτων του Word και την ομοιότητα στυλ.

Το Voicebox έχει χτιστεί σε ένα μοντέλο Flow Matching, το οποίο είναι το πιο πρόσφατο μη-αυτοπαλιναγωγικό μοντέλο παραγωγής της Meta, το οποίο μπορεί να μάθει εξαιρετικά μη ντετερμινιστική αντιστοίχιση μεταξύ κειμένου και ομιλίας, επιτρέποντας στο Voicebox να μαθαίνει από ποικίλα δεδομένα ομιλίας χωρίς να χρειάζεται να επισημαίνεται προσεκτικά, επιτρέποντας την τα δεδομένα να είναι πιο διαφορετικά και σε μεγαλύτερη κλίμακα.

Το Voicebox έχει εκπαιδευτεί σε περισσότερες από 50.000 ώρες ηχογραφημένης ομιλίας και μεταγραφές από ηχητικά βιβλία δημόσιου τομέα στα Αγγλικά, Γαλλικά, Ισπανικά, Γερμανικά, Πολωνικά και Πορτογαλικά μέχρι στιγμής και μπορεί επίσης να προβλέψει ένα τμήμα ομιλίας όταν δίνεται η γύρω ομιλία και η μεταγραφή του τμήματος.

Τέλος, ο Meta συνεχίζει σχολιάζοντας ότι ενώ η τεχνολογία μπορεί να φέρει σε μια νέα εποχή παραγωγικής τεχνητής νοημοσύνης για την ομιλία, θα μπορούσε να φέρει την πιθανότητα κακής χρήσης και ακούσιας βλάβης.

Στην ερευνητική εργασία που θα μοιραστεί η Meta για το Voicebox, θα περιλαμβάνει λεπτομέρειες σχετικά με τον τρόπο με τον οποίο έχει δημιουργήσει έναν εξαιρετικά αποτελεσματικό ταξινομητή που μπορεί να διαφοροποιήσει την αυθεντική ομιλία και την ομιλία που δημιουργείται από το Voicebox.

Η Meta δεν θα κάνει το ίδιο το πρόγραμμα AI διαθέσιμο για δημόσια χρήση, ούτε θα κυκλοφορήσει τον πηγαίο κώδικα.

neowin.net