Η Amazon αποκαλύπτει το μεγαλύτερο μοντέλο μετατροπής κειμένου σε ομιλία που έχει κατασκευαστεί ποτέ
Οι ερευνητές στο Amazon έχουν
εισήχθη
το μεγαλύτερο μοντέλο μετατροπής κειμένου σε ομιλία μέχρι σήμερα, το οποίο αναμένεται να έχει βελτιωμένες ιδιότητες που του επιτρέπουν να αρθρώνει καλύτερα σύνθετες προτάσεις.
Το μοντέλο BASE TTS (text-to-speech), που σημαίνει Big Adaptive Streamable TTS with Emergent abilities, θα μπορούσε να θέσει τα θεμέλια για περισσότερες αλληλεπιδράσεις που μοιάζουν με τον άνθρωπο.
Σύμφωνα με την έρευνα, φαίνεται ότι η εκτεταμένη εκπαίδευση για μοντέλα TTS θα μπορούσε να βελτιώσει την αξιοπιστία και την ευελιξία με τον ίδιο τρόπο που βλέπουμε με τα μεγάλα γλωσσικά μοντέλα (LLM) που χρησιμοποιούνται για την τεχνητή νοημοσύνη.
Το BASE TTS της Amazon εντυπωσιάζει τους ερευνητές
Το μοντέλο μετατροπής κειμένου σε ομιλία έχει εκπαιδευτεί σε 100.000 ώρες δεδομένων ομιλίας που ζουν σε δημόσιο τομέα, γεγονός που δίνει στο εργαλείο μια «φυσικότητα τελευταίας τεχνολογίας». Χρησιμοποιήθηκαν επίσης κυρίως αγγλικά, ορισμένα γερμανικά, ολλανδικά και ισπανικά δεδομένα.
Επιπλέον, οι ερευνητές διαπίστωσαν ότι ακόμη και η εκπαίδευση ενός μοντέλου TTS σε 10.000 ώρες ομιλίας μπορεί να οδηγήσει σε βελτιωμένη ικανότητα άρθρωσης σύνθετων προτάσεων πιο φυσικά.
Με 980 εκατομμύρια παραμέτρους, το BASE-large έχει αναγνωριστεί ως το μεγαλύτερο μοντέλο μετατροπής κειμένου σε ομιλία που έχει κατασκευαστεί ποτέ. Η ομάδα εκπαίδευσε επίσης μικρότερα μοντέλα, με 400 εκατομμύρια και 150 εκατομμύρια παραμέτρους και 10.000 και 1.000 ώρες ομιλίας, προκειμένου να συγκρίνει τα αποτελέσματα.
Η ομάδα της Amazon περιγράφει το BASE TTS ως «μοντέλο υψηλής πιστότητας ικανό να μιμείται τα χαρακτηριστικά των ηχείων με μόνο λίγα δευτερόλεπτα ήχου αναφοράς», αναγνωρίζοντας την ανάγκη για περισσότερη έρευνα, αλλά αναγνωρίζοντας τις δυνατότητές του.
Μερικοί από τους βασικούς τομείς στους οποίους εστίασαν οι ερευνητές ήταν τα σύνθετα ουσιαστικά, τα συναισθήματα, οι ξένες λέξεις, η παραγλωσσολογία, τα σημεία στίξης, οι ερωτήσεις και η συντακτική πολυπλοκότητα – παραδείγματα μπορούν να βρεθούν σε ειδικό
ιστοσελίδα
.
Με την επαναστατική τεχνητή νοημοσύνη να βρίσκεται στο επίκεντρο το μεγαλύτερο μέρος του 2023, οι ανακαλύψεις κειμένου σε ομιλία όπως αυτή το 2024 θα μπορούσαν να συνεχίσουν να φέρνουν τις κάποτε φουτουριστικές τεχνολογίες στα χέρια των μαζών, αλλά η προσεκτική προσέγγιση της ερευνητικής ομάδας υπογραμμίζει την ανάγκη για σωστή ρύθμιση εν μέσω ασφάλειας και φόβοι για την ιδιωτικότητα.
VIA:
TechRadar.com/

