Η Meta κυκλοφορεί μοντέλο μετάφρασης πολύγλωσσης ομιλίας
Η Meta κυκλοφόρησε ένα νέο μοντέλο ομιλίας σε κείμενο που μπορεί να μεταφράσει σχεδόν 100 γλώσσες που ονομάζεται SeamlessM4T, καθώς η εταιρεία συνεχίζει να προσπαθεί να δημιουργήσει έναν καθολικό μεταφραστή.
SeamlessM4T
, που σημαίνει Massively Multilingual and Multimodal Machine Translation, που η εταιρεία είπε ό
τι
μπορεί να μεταφράσει ομιλία σε κείμενο και κείμενο σε κείμενο για σχεδόν 100 γλώσσες. Για ενέργειες ομιλίας σε ομιλία και κειμένου σε ομιλία, αναγνωρίζει 100 γλώσσες εισόδου και τις μετατρέπει σε 35 γλώσσες εξόδου.
Κυκλοφορεί υπό α
Creative Commons CC BY-NC 4.0
άδεια, επιτρέποντας στους ερευνητές να το επαναλάβουν.
Μαζί με το SeamlessM4T, η Meta κυκλοφόρησε επίσης τα μεταδεδομένα για το σύνολο δεδομένων ανοιχτής μετάφρασης SeamlessAlign.
«Χτίζοντας έναν παγκόσμιο μεταφραστή γλώσσας, όπως το φανταστικό Babel Fish in
The Hitchhiker’s Guide to the
Galaxy
είναι πρόκληση γιατί τα υπάρχοντα συστήματα ομιλίας σε ομιλία και ομιλίας σε κείμενο καλύπτουν μόνο ένα μικρό κλάσμα των γλωσσών του κόσμου», είπε ο Μέτα.
ο
Οδηγός Οτοστόπ
Το Babel Fish, όπως το συνέλαβε ο συγγραφέας Douglas Adams, είναι ένα ψάρι που μπορείτε να βάλετε στο αυτί σας για να καταλάβετε αμέσως οποιαδήποτε γλώσσα. Εάν είστε α
Γιατρός Who
θα μπορούσατε να συγκρίνετε το εργαλείο του Meta με μια μήτρα μετάφρασης στο
TARDIS
που μετατρέπει ακόμη και ξένες λέξεις στα αγγλικά.
Ο Meta είπε ότι το SeamlessM4T αντιπροσωπεύει «μια σημαντική ανακάλυψη», επειδή αυτό το νέο μοντέλο εκτελεί ολόκληρη τη μετάφραση με μία κίνηση, σε αντίθεση με άλλα μεγάλα μοντέλα μετάφρασης που χωρίζουν τη μετάφραση σε διαφορετικά συστήματα.
Ένα από τα ενδιαφέροντα χαρακτηριστικά του SeamlessM4T, εάν μπορεί να λειτουργήσει σωστά, είναι η υποτιθέμενη ικανότητά του να αναγνωρίζει πότε ένας ομιλητής αλλάζει κώδικα ή πότε κάποιος μετακινείται μεταξύ δύο ή περισσότερων γλωσσών σε μία πρόταση. Για παράδειγμα, ο Meta έδειξε σε ένα βίντεο ότι το μοντέλο κάνει αμέσως διαφοροποίηση μεταξύ Χίντι, Τελούγκου και Αγγλικών. Δεν έχω δοκιμάσει το μοντέλο, αλλά συχνά αλλάζω κώδικα μεταξύ των δύο μητρικών μου γλωσσών (φιλιππινέζικα και αγγλικά) —όπως και οι περισσότεροι άνθρωποι που μιλούν διαφορετικές γλώσσες — και από προσωπική εμπειρία,
δεν είναι
κάτι που χρησιμοποιούν τα περισσότερα λογισμικά αναγνώρισης ομιλίας AI γρήγορα.
Το SeamlessM4T βασίζεται σε προηγούμενα μοντέλα μετάφρασης από τη Meta. Πέρυσι, η Meta κυκλοφόρησε το μοντέλο μηχανικής μετάφρασης κειμένου σε κείμενο No Language Left Behind, το οποίο υποστήριζε 200 γλώσσες. Ανέπτυξε το SpeechMatrix, ένα σύνολο δεδομένων για πολύγλωσση μετάφραση ομιλίας σε ομιλία και το Massively Multilingual Speech για την αναγνώριση ομιλίας. Η Meta παρουσίασε το Universal Speech Translator της πέρυσι, μετατρέποντας την ομιλούμενη Hokkien, μια ευρέως χρησιμοποιούμενη γλώσσα στην Κίνα που δεν διαθέτει επίσημο σύστημα γραφής, στα αγγλικά.
Η μετάφραση γλώσσας είναι σημαντική για εταιρείες όπως η Meta, οι οποίες απασχολούν χιλιάδες ανθρώπους για να μετριάσουν μια πλημμύρα αναρτήσεων στο Facebook και στο Instagram σε διαφορετικές γλώσσες. Πολύ συχνά, οι μη κύριες γλώσσες έχουν μικρότερες ομάδες και καταλήγουν να βασίζονται σε αυτοματοποιημένη εποπτεία που δεν λειτουργεί καλά με αυτές τις γλώσσες. Η τεχνητή νοημοσύνη, εάν δοθεί πρόσβαση σε ένα σύνολο δεδομένων αυτών των μικρότερων γλωσσών, μπορεί να αποτελέσει εργαλείο για εταιρείες όπως η Meta για τη βελτίωση της εποπτείας.
Για την κατασκευή του SeamlessM4T, η Meta είπε ότι επανασχεδίασε το κιτ εργαλείων μοντελοποίησης ακολουθίας Fairseq για να δημιουργήσει πιο ελαφριά μοντέλα και να χειριστεί περισσότερες πληροφορίες.
Κατά την ανάπτυξη του SeamlessM4T, η Meta είπε ότι κατασκεύασε ένα σύστημα που προσδιορίζει τοξικές ή ευαίσθητες λέξεις. Ο Meta ορίζει τις τοξικές λέξεις ως περιπτώσεις όπου η μετάφραση μπορεί να υποκινήσει μίσος, βία, βωμολοχίες ή κακοποίηση. Ο στόχος είναι να μπορούμε να ανιχνεύσουμε πότε η μετάφραση εξόδου εισάγει τοξικότητα που δεν υπήρχε στο αρχικό υλικό.
«Φιλτράραμε την μη ισορροπημένη τοξικότητα στα δεδομένα της προπόνησης. Εάν η είσοδος ή η έξοδος περιείχαν διαφορετικές ποσότητες τοξικότητας, αφαιρέσαμε αυτήν την ακολουθία προπόνησης», είπε ο Meta.
Οι ερευνητές προσπάθησαν επίσης να καθαρίσουν σύνολα δεδομένων που μεταφράζουν λανθασμένα κάποιες βωμολοχίες, ώστε να εντοπίζουν με μεγαλύτερη ακρίβεια πότε χρησιμοποιείται.
Η Meta ισχυρίζεται ότι αναγνωρίζει επίσης την προκατάληψη του φύλου στις γλώσσες και είπε ότι το μοντέλο μπορεί να ποσοτικοποιήσει την προκατάληψη του φύλου στις μεταφράσεις. Το SeamlessM4T μπορεί να ελέγξει εάν η πρόταση χρησιμοποιούσε μια έμφυλη μορφή λέξης, ας πούμε
διδακτορικό
στα ισπανικά και ορίστε μια γυναικεία αντωνυμία σε μια γλώσσα-στόχο χωρίς γραμματική ισοδύναμου φύλου, εάν χρειάζεται. Προσεγγίζοντας το παρόμοια με την τοξικότητα, ο Meta είπε ότι το SeamlessM4T μετράει πόσες φορές μια μετάφραση προσθέτει λέξεις με φύλο σε όρους που δεν ήταν συγκεκριμένα με το φύλο στην αρχική γλώσσα, π.χ. υποθέτοντας αυτόματα ότι ο γιατρός είναι άνδρας όταν δεν έχει διάκριση φύλου στην αγγλική γλώσσα.
Η Meta έχει κυκλοφορήσει πολλά από τα μοντέλα τεχνητής νοημοσύνης της σε προγραμματιστές και ερευνητές με περισσότερο ή λιγότερο τρόπο ανοιχτού κώδικα. Πρόσφατα κυκλοφόρησε το AudioCraft, κώδικα που επιτρέπει τη δημιουργία κειμένου σε ήχο. Η Meta παρείχε επίσης πρόσβαση στο μοντέλο της μεγάλης γλώσσας Llama 2.
