Ο νέος πολυτροπικός μεταφραστής της Meta χρησιμοποιεί ένα μόνο μοντέλο για να μιλήσει 100 γλώσσες

Αν και δεν είναι αρκετά έτοιμο να εγκαινιάσει το μέλλον του Doolittle που όλοι περιμέναμε, οι σύγχρονες μέθοδοι μετάφρασης τεχνητής νοημοσύνης αποδεικνύονται περισσότερο από

ρκείς για να μεταμορφώσουν με ακρίβεια τα περίπου 6.500 προφορικά και γραπτά συστήματα επικοινωνίας της ανθρωπότητας μεταξύ τους. Το πρόβλημα είναι ότι καθένα από αυτά τα μοντέλα τείνει να κάνει μόνο μία ή δύο εργασίες πολύ καλά – μεταφράζει και μετατρέπει κείμενο σε ομιλία, ομιλία σε κείμενο ή μεταξύ ενός από τα δύο σύνολα – έτσι καταλήγετε να πρέπει να συντρίψετε ένα σωρό μοντέλα από πάνω μεταξύ τους για να δημιουργήσουν τη γενικευμένη απόδοση που παρατηρείται στο Google Translate ή στις μυριάδες γλωσσικές υπηρεσίες του Facebook.

Αυτή είναι μια υπολογιστικά εντατική διαδικασία, οπότε η

ανέπτυξε ένα ενιαίο

που μπορεί να τα κάνει όλα. Το SeamlessM4T είναι «ένα θεμελιώδες πολυγλωσσικό και πολυεργατικό μοντέλο που μεταφράζει και μεταγράφει απρόσκοπτα σε ομιλία και κείμενο», αναφέρει το blog του Meta από την Τρίτη. Μπορεί να μεταφράσει μεταξύ σχεδόν 100 γλωσσών για λειτουργίες ομιλίας σε κείμενο και κειμένου σε κείμενο, η ομιλία σε ομιλία και η μετατροπή κειμένου σε ομιλία υποστηρίζει αυτές τις ίδιες γλώσσες ως εισόδους και τις εξάγει σε οποιαδήποτε από τις 36 άλλες γλώσσες. συμπεριλαμβανομένων των αγγλικών.


Στην ανάρτησή τους στο blog, η ερευνητική ομάδα του Meta σημειώνει ότι το SeamlessM4T «βελτιώνεται σημαντικά[s] απόδοση για τις γλώσσες χαμηλού και μεσαίου πόρου που υποστηρίζουμε”, διατηρώντας παράλληλα “ισχυρή απόδοση σε γλώσσες υψηλών πόρων, όπως τα αγγλικά, τα ισπανικά και τα γερμανικά.” Η Meta δημιούργησε το SeamlessM4T από την υπάρχουσα

μοντέλου UnitY πολλαπλών εργασιών που βασίζεται στην PyTorch, η οποία ήδη εκτελεί εγγενώς τις διάφορες μεταφράσεις καθώς και την αυτόματη αναγνώριση ομιλίας.

Σύστημα BERT 2.0

για κωδικοποίηση ήχου, κατανομή των εισόδων στα διακριτικά των στοιχείων τους για ανάλυση και α

Κωδικοποιητής φωνής μονάδας HiFi-GAN

για τη δημιουργία προφορικών απαντήσεων.

Η Meta έχει επίσης επιμεληθεί ένα τεράστιο ανοιχτού κώδικα παράλληλο σώμα ομιλίας σε ομιλία και ομιλίας σε κείμενο, με το όνομα SeamlessAlign. Η εταιρεία εξόρυξε «δεκάδες δισεκατομμύρια προτάσεις» και «τέσσερα εκατομμύρια ώρες» ομιλίας από δημόσια διαθέσιμα αποθετήρια για να «ευθυγραμμίσει αυτόματα περισσότερες από 443.000 ώρες ομιλίας με κείμενα και να δημιουργήσει περίπου 29.000 ώρες στοίχισης ομιλίας με ομιλία», ανά το blog. Όταν δοκιμάστηκε για στιβαρότητα, το SeamlessM4T φέρεται να ξεπέρασε τον προκάτοχό του (τη σημερινή τελευταίας τεχνολογίας) έναντι των θορύβων του περιβάλλοντος και των παραλλαγών του στυλ των ηχείων κατά 37 τοις εκατό και 48 τοις εκατό, αντίστοιχα.

Όπως με όλες τις προηγούμενες προσπάθειές της για αυτόματη μετάφραση — είτε πρόκειται για το Llama 2, το Massively Multilingual Speech (MMS), το Universal Speech Translator (UST) ή το φιλόδοξο έργο No Language Left Behind (NLLB) — το SeamlessM4T είναι ανοιχτού κώδικα. «Πιστεύουμε ότι το SeamlessM4T είναι μια σημαντική ανακάλυψη στην προσπάθεια της κοινότητας της τεχνητής νοημοσύνης προς τη δημιουργία καθολικών συστημάτων πολλαπλών εργασιών», έγραψε η ομάδα. «Συνεχίζοντας την προσέγγισή μας στην ανοιχτή επιστήμη, είμαστε ενθουσιασμένοι που μοιραζόμαστε το μοντέλο μας δημόσια για να επιτρέψουμε σε ερευνητές και προγραμματιστές να βασιστούν σε αυτήν την τεχνολογία». Εάν ενδιαφέρεστε να εργαστείτε με το SeamlessM4T για τον εαυτό σας, κατευθυνθείτε στο

GitHub για λήψη του μοντέλου

δεδομένα εκπαίδευσης και τεκμηρίωση.



Engadget.com


Leave A Reply



Cancel Reply

Your email address will not be published.