Το μεγαλύτερο μοντέλο τεχνητής νοημοσύνης κειμένου σε ομιλία παρουσιάζει ακόμα «αναδυόμενες ικανότητες»
Ερευνητές στο Amazon εκπαίδευσαν το μεγαλύτερο μοντέλο μετατροπής κειμένου σε ο
μι
λία μέχρι
σήμερα
, το οποίο ισχυρίζονται ότι παρουσιάζει «αναδυόμενες» ιδιότητες που βελτιώνουν την ικανότητά του να εκφέρει φυσικά ακόμη και περίπλοκες προτάσεις. Η σημαντική ανακάλυψη θα μπορούσε να είναι αυτό που χρειάζεται η τεχνολογία για να ξεφύγει από την παράξενη κοιλάδα.
Αυτά τα μοντέλα πάντα επρόκειτο να αναπτυχθούν και να βελτιωθούν, αλλά οι ερευνητές ήλπιζαν συγκεκριμένα να δουν το είδος του άλματος στην ικανότητα που παρατηρήσαμε όταν τα γλωσσικά μοντέλα ξεπερνούσαν ένα ορισμένο μέγεθος. Για λόγους άγνωστους σε εμάς, μόλις τα LLM ξεπεράσουν ένα ορισμένο σημείο, αρχίζουν να είναι πολύ πιο εύρωστα και ευέλικτα, ικανά να εκτελούν εργασίες στις οποίες δεν είχαν εκπαιδευτεί.
Αυτό δεν σημαίνει ότι κερδίζουν συναίσθημα ή οτιδήποτε άλλο, απλώς μετά από ένα ορισμένο σημείο η απόδοσή τους σε ορισμένες εργασίες τεχνητής νοημοσύνης συνομιλίας μπαστούνια χόκεϋ. Η ομάδα του Amazon AGI – δεν είναι μυστικό σε τι στοχεύουν – σκέφτηκε ότι το ίδιο θα μπορούσε να συμβεί καθώς αυξήθηκαν και τα μοντέλα μετατροπής κειμένου σε ομιλία, και η έρευνά τους δείχνει ότι αυτό είναι στην πραγματικότητα.
Το νέο μοντέλο ονομάζεται
Big Adaptive Streamable TTS με Emergent ικανότητες
, το οποίο έχουν παραμορφώσει στη συντομογραφία BASE TTS. Η μεγαλύτερη έκδοση του μοντέλου χρησιμοποιεί 100.000 ώρες ομιλίας δημόσιου τομέα, το 90% των οποίων είναι στα αγγλικά, το υπόλοιπο στα γερμανικά, τα ολλανδικά και τα ισπανικά.
Με 980 εκατομμύρια παραμέτρους, το BASE-large φαίνεται να είναι το μεγαλύτερο μοντέλο αυτής της κατηγορίας. Εκπαίδευσαν επίσης μοντέλα παραμέτρων 400M και 150M με βάση 10.000 και 1.000 ώρες ήχου αντίστοιχα, για σύγκριση — η ιδέα είναι ότι εάν ένα από αυτά τα μοντέλα εμφανίζει αναδυόμενες συμπεριφορές αλλά ένα άλλο όχι, έχετε ένα εύρος για το πού ξεκινούν αυτές οι συμπεριφορές να αναδυθεί.
Όπως αποδεικνύεται, το μεσαίου μεγέθους μοντέλο έδειξε το άλμα στην ικανότητα που αναζητούσε η ομάδα, όχι απαραίτητα στη συνηθισμένη ποιότητα ομιλίας (αναθεωρείται καλύτερα αλλά μόνο με δύο σημεία) αλλά στο σύνολο των αναδυόμενων ικανοτήτων που παρατήρησαν και μέτρησαν . Ακολουθούν παραδείγματα περίπλοκων κειμένων
αναφέρεται στο έγγραφο
:
-
Σύνθετες λέξεις
: Οι Beckhams αποφάσισαν να νοικιάσουν ένα γοητευτικό, πετρόχτιστο, γραφικό εξοχικό εξοχικό σπίτι. -
Συναισθήματα
: “Ω Θεέ μου! Πάμε αλήθεια στις Μαλδίβες; Είναι απίστευτο!» Η Τζένι τσίριξε, αναπηδώντας στις μύτες των ποδιών της με απεριόριστη χαρά. -
Ξένες λέξεις
: “Κύριος. Ο Χένρι, φημισμένος για την κακία του, ενορχήστρωσε ένα γεύμα επτά πιάτων, κάθε πιάτο ένα κομμάτι της αντίστασης. -
Παραγλωσσολογία
(δηλαδή ευανάγνωστες μη λέξεις): «Σς, Λούσι, σσσς, δεν πρέπει να ξυπνήσουμε τον αδερφό σου», ψιθύρισε ο Τομ, καθώς περνούσαν από το νηπιαγωγείο. -
Σημεία στίξης
: Έλαβε ένα περίεργο μήνυμα από τον αδερφό της: ‘Emergency @ home; καλέστε το ASAP! Η μαμά και ο μπαμπάς ανησυχούν…#familymatters». -
Ερωτήσεις
: Αλλά το ερώτημα του Brexit παραμένει: Μετά από όλες τις δοκιμασίες και τις δοκιμασίες, οι υπουργοί θα βρουν τις απαντήσεις εγκαίρως; -
Συντακτικές πολυπλοκότητες
: Η ταινία που πρωταγωνίστησε ο De Moya, ο οποίος τιμήθηκε πρόσφατα με το βραβείο ισόβιας επιτυχίας, το
2022
, ήταν μεγάλη επιτυχία, παρά τις ανάμεικτες κριτικές.
«Αυτές οι προτάσεις έχουν σχεδιαστεί για να περιέχουν δύσκολες εργασίες – αναλύοντας προτάσεις κήπου, δίνοντας φραστική έμφαση σε μακρόσυρτα σύνθετα ουσιαστικά, παράγοντας συναισθηματική ή ψιθυριστή ομιλία ή παράγοντας τα σωστά φωνήματα για ξένες λέξεις όπως «qi» ή σημεία στίξης όπως «@». – κανένα από τα οποία το BASE TTS δεν είναι ρητά εκπαιδευμένο να εκτελεί», γράφουν οι συγγραφείς.
Τέτοιες λειτουργίες συνήθως ενεργοποιούν τις μηχανές μετατροπής κειμένου σε ομιλία, οι οποίες προφέρουν λάθος, παραλείπουν λέξεις, χρησιμοποιούν περίεργους τόνους ή κάνουν κάποια άλλη γκάφα. Το BASE TTS είχε ακόμα προβλήματα, αλλά τα πήγε πολύ καλύτερα από τα σύγχρονά του — μοντέλα όπως το Tortoise και το VALL-E.
Υπάρχουν ένα σωρό παραδείγματα αυτών των δύσκολων κειμένων που λέγονται εντελώς φυσικά από το νέο μοντέλο
στο χώρο που έφτιαξαν για αυτό.
Φυσικά αυτά επιλέχθηκαν από τους ερευνητές, άρα είναι απαραίτητα διαλεγμένα από κεράσι, αλλά είναι εντυπωσιακό ανεξάρτητα από αυτό. Εδώ είναι ένα ζευγάρι, αν δεν θέλετε να κάνετε κλικ:
Επειδή τα τρία μοντέλα BASE TTS μοιράζονται μια αρχιτεκτονική, φαίνεται ξεκάθαρο ότι το μέγεθος του μοντέλου και η έκταση των δεδομένων εκπαίδευσης φαίνεται να είναι η αιτία της ικανότητας του μοντέλου να χειρίζεται ορισμένες από τις παραπάνω πολυπλοκότητες. Λάβετε υπόψη ότι αυτό εξακολουθεί να είναι ένα πειραματικό μοντέλο και διαδικασία — όχι ένα
εμπ
ορικό μοντέλο ή οτιδήποτε άλλο. Η μεταγενέστερη έρευνα θα πρέπει να εντοπίσει το σημείο καμπής για την αναδυόμενη ικανότητα και τον τρόπο εκπαίδευσης και ανάπτυξης του προκύπτοντος μοντέλου αποτελεσματικά.
Συγκεκριμένα, αυτό το μοντέλο είναι “με δυνατότητα
ροής
”, όπως λέει το όνομα – που σημαίνει ότι δεν χρειάζεται να δημιουργεί ολόκληρες προτάσεις ταυτόχρονα, αλλά πηγαίνει στιγμή προς στιγμή σε σχετικά χαμηλό ρυθμό μετάδοσης bit. Η ομάδα προσπάθησε επίσης να συσκευάσει τα μεταδεδομένα ομιλίας όπως συναισθηματικότητα, προσωδία και ούτω καθεξής σε μια ξεχωριστή ροή χαμηλού εύρους ζώνης που θα μπορούσε να συνοδεύει τον ήχο βανίλιας.
Φαίνεται ότι τα μοντέλα μετατροπής κειμένου σε ομιλία μπορεί να έχουν μια πρώτη στιγμή το 2024 — ακριβώς την ώρα για τις εκλογές! Αλλά δεν υπάρχει αμφιβολία για τη χρησιμότητα αυτής της τεχνολογίας, ιδιαίτερα για την προσβασιμότητα. Η ομάδα σημειώνει ότι αρνήθηκε να δημοσιεύσει την πηγή του μοντέλου και άλλα δεδομένα λόγω του κινδύνου να το εκμεταλλευτούν κακοί ηθοποιοί. Ωστόσο, η γάτα θα βγει από αυτή την τσάντα τελικά.
VIA:
techcrunch.com

