Η τελευταία σουίτα AI της Meta κάνει τη μετάφραση ομιλίας πιο απρόσκοπτη και εκφραστική
Τον Αύγουστο, η
Meta
παρουσίασε το πολυτροπικό μοντέλο μετάφρασης AI, SeamlessM4T, το οποίο υποστηρίζει σχεδόν 100 γλώσσες για κείμενο και 36 για ομιλία. Με μια ενημερωμένη
αρχιτεκτονική
“v2”, ο τεχνολογικός γίγαντας είναι τώρα
επεκτείνεται
σε αυτό το εργαλείο για να γίνουν οι μεταφράσεις συνομιλίας πιο αυθόρμητες και εκφραστικές — η τελευταία είναι ένα κλειδί που λείπει για μια αυθεντική συνομιλία μεταξύ των γλωσσών.
Το πρώτο από τα δύο νέα χαρακτηριστικά είναι το “SeamlessExpressive”, το οποίο, όπως μπορείτε να καταλάβετε από το όνομα, μεταφέρει τις εκφράσεις σας στη μεταφρασμένη ομιλία σας. Αυτά περιλαμβάνουν τον τόνο, την ένταση, τον συναισθηματικό τόνο (ενθουσιασμό, λύπη ή ψίθυρους), τον ρυθμό ομιλίας και τις παύσεις. Λαμβάνοντας υπόψη πώς οι μεταφρασμένες ομιλίες ακούγονταν πάντα ρομποτικές μέχρι τώρα, αυτή η ανακάλυψη είναι δυνητικά μια αλλαγή του παιχνιδιού — τόσο στην καθημερινή μας ζωή όσο και στην παραγωγή περιεχομένου. Οι υποστηριζόμενες γλώσσες περιλαμβάνουν τα αγγλικά, τα ισπανικά, τα γερμανικά, τα γαλλικά, τα ιταλικά και τα κινέζικα
δοκιμαστική σελίδα
λείπουν ιταλικά και κινέζικα τη στιγμή που γράφτηκε αυτό το άρθρο.
Η δεύτερη λειτουργία είναι η “SeamlessStreaming”, η οποία ξεκινά τη μετάφραση μιας ομιλίας ενώ ο ομιλητής εξακολουθεί να μιλάει, επιτρέποντας έτσι στους άλλους να ακούσουν μια μετάφραση πιο γρήγορα. Υπάρχει ακόμη μια σύντομη καθυστέρηση λίγο λιγότερο από δύο δευτερόλεπτα, αλλά τουλάχιστον δεν θα χρειαστεί να περιμένετε μέχρι κάποιος να ολοκληρώσει μια πρόταση. Σύμφωνα με τον Meta, η πρόκληση εδώ είναι ότι διαφορετικές γλώσσες έχουν διαφορετικές δομές προτάσεων, επομένως έπρεπε να αναπτύξει έναν αλγόριθμο αφιερωμένο στη μελέτη μερικής εισόδου
ήχου
, προκειμένου να αποφασίσει εάν υπάρχει αρκετό πλαίσιο για να ξεκινήσει η παραγωγή μεταφρασμένης εξόδου ή αν θα συνεχίσει να ακούει .
Η τελευταία εξέλιξη της Meta σε αυτήν τη σουίτα “Απρόσκοπτη Επικοινωνία” φαίνεται να είναι εντυπωσιακή — περισσότερο από τα εργαλεία διερμηνείας για κινητά που προσφέρονται από εταιρείες όπως η Google και η
Samsung
. Δεν υπάρχει καμία πληροφορία για το πότε το κοινό θα μπορέσει να χρησιμοποιήσει αυτές τις νέες δυνατότητες, αλλά ήδη μπορώ να φανταστώ τη Meta να τα ψήνει στα έξυπνα ποτήρια του κάποια μέρα, κάνοντάς τα ακόμα πιο πρακτικά από ποτέ.
VIA:
engadget.com
