Τα εργαλεία δημιουργίας φωνής της ElevenLabs κυκλοφορούν σε έκδοση beta
Eleven Labs
η ιογενής
πλατφόρμα
δημιουργίας συνθετικών φωνών που τροφοδοτείται με AI, κυκλοφόρησε σήμερα την πλατφόρμα της εκτός beta με υποστήριξη για περισσότερες από 30 γλώσσες.
Χρησιμοποιώντας ένα νέο
μοντέλο
τεχνητής νοημοσύνης που αναπτύχθηκε εσωτερικά, η ElevenLabs λέει ότι τα εργαλεία της είναι πλέον σε θέση να αναγνωρίζουν αυτόματα γλώσσες όπως τα κορεάτικα, τα ολλανδικά και τα βιετναμέζικα και να παράγουν «συναισθηματικά πλούσια» ομιλία σε αυτές τις γλώσσες.
Σε συνδυασμό με το νέο μοντέλο, οι πελάτες της ElevenLabs μπορούν να αξιοποιήσουν το εργαλείο κλωνοποίησης φωνής της πλατφόρμας για να μιλήσουν σε σχεδόν 30 γλώσσες χωρίς να χρειάζεται πρώτα να πληκτρολογήσουν κείμενο.
«Η ElevenLabs ξεκίνησε με το όνειρο να γίνει όλο το περιεχόμενο καθολικά προσβάσιμο σε οποιαδήποτε γλώσσα και σε οποιαδήποτε φωνή», δήλωσε ο Διευθύνων Σύμβουλος και συνιδρυτής της ElevenLabs, Mati Staniszewski. «Με αυτήν την κυκλοφορία, είμαστε ένα βήμα πιο κοντά στο να κάνουμε αυτό το όνειρο πραγματικότητα και να κάνουμε φωνές τεχνητής νοημοσύνης ανθρώπινης ποιότητας διαθέσιμες σε κάθε διάλεκτο. Τα εργαλεία δημιουργίας κειμένου σε ομιλία μας βοηθούν στην εξισορρόπηση των όρων παιχνιδιού και προσφέρουν δυνατότητες προφορικού ήχου κορυφαίας ποιότητας σε όλους τους δημιουργούς εκεί έξω».
Ιδρύθηκε από τον Staniszewski, ο οποίος εργαζόταν στο παρελθόν στην Palantir, και τον παιδικό του φίλο Piotr Dabkowski, πρώην υπάλληλο της Google, το ElevenLabs έγινε πρωτοσέλιδο τους τελευταίους μήνες και για τους δύο λόγους
Καλός
και
απεχθής
. Εμπνευσμένο από τη μέτρια μεταγλώττιση των αμερικανικών ταινιών που παρακολούθησαν οι Staniszewski και Dabkowski μεγαλώνοντας στην Πολωνία, το ζευγάρι ξεκίνησε να σχεδιάσει μια πλατφόρμα που θα μπορούσε να τα πάει καλύτερα — χρησιμοποιώντας φυσικά AI.
Το ElevenLabs κυκλοφόρησε σε έκδοση beta στα τέλη Ιανουαρίου, και άνοιξε το steam αρκετά γρήγορα – λόγω της υψηλής ποιότητας των φωνών που δημιουργούνται και της γενναιόδωρης δωρεάν βαθμίδας. Αλλά όπως αναφέρθηκε προηγουμένως, η δημοσιότητα δεν ήταν σταθερά θετική – ιδιαίτερα όταν κακοί ηθοποιοί εκμεταλλεύτηκαν την πλατφόρμα για τους δικούς τους σκοπούς.
Ο διαβόητος πίνακας μηνυμάτων 4chan, γνωστός για το συνωμοτικό του περιεχόμενο,
μεταχειρισμένος
Τα εργαλεία της ElevenLabs για να μοιράζονται μηνύματα μίσους που μιμούνται διασημότητες όπως η ηθοποιός Emma Watson. Αλλού, ο James Vincent του The Verge μπόρεσε να πατήσει το ElevenLabs για να κλωνοποιήσει τις φωνές των στόχων μέσα σε λίγα δευτερόλεπτα,
δημιουργώντας
δείγματα ήχου που περιέχουν τα πάντα, από απειλές βίας έως εκφράσεις ρατσισμού και τρανσφοβίας.
Σε απάντηση, η ElevenLabs είπε ότι θα εισαγάγει ένα σύνολο νέων διασφαλίσεων, όπως τον περιορισμό της κλωνοποίησης φωνής σε λογαριασμούς επί πληρωμή και την παροχή ενός νέου εργαλείου ανίχνευσης τεχνητής νοημοσύνης.
Ωστόσο, η ElevenLabs δεν έχει ακόμη αντιμετωπίσει την άλλη διαμάχη που αναπτύσσεται γύρω από την πλατφόρμα της και άλλες παρόμοιες πλατφόρμες: την απειλή τους για τον κλάδο της φωνητικής υποκριτικής.
Μητρική πλακέτα
γράφει
για το πώς όλο και περισσότερο ζητείται από τους φωνητικούς ηθοποιούς να υπογράφουν τα δικαιώματα της φωνής τους, ώστε οι πελάτες να μπορούν να χρησιμοποιήσουν την τεχνητή νοημοσύνη για να δημιουργήσουν συνθετικές εκδόσεις που θα μπορούσαν τελικά να τους αντικαταστήσουν. Εν τω μεταξύ, εσωτερικά
email
δει
Οι New York Times αναφέρουν ότι η Activision Blizzard, ένας από τους μεγαλύτερους εκδότες παιχνιδιών στον κόσμο, εργάζεται πάνω σε εργαλεία για «κλωνοποίηση φωνής» με τη βοήθεια AI.
Φαίνεται ότι η ElevenLabs βλέπει αυτό ως τη φυσική εξέλιξη των πραγμάτων, διαφημίζοντας τη δουλειά της με εκδότες όπως η Storytel. πλατφόρμες μέσων όπως η TheSoul Publishing και το MNTN για ηχητικά βιβλία και ραδιοφωνικό περιεχόμενο. και εκδότες όπως τα Embark Studios και Paradox Interactive για βιντεοπαιχνίδια, (η Storytel και η TheSoul Publishing είναι στρατηγικοί επενδυτές.) Η εταιρεία ισχυρίζεται ότι έχει πάνω από ένα εκατομμύριο εγγεγραμμένους χρήστες στους χώρους δημιουργικότητας, ψυχαγωγίας και δημοσίευσης που έχουν δημιουργήσει δέκα χρόνια αξίας ηχητικό περιεχόμενο.
Η ElevenLabs, η οποία συγκέντρωσε πρόσφατα 19 εκατομμύρια δολάρια από επενδυτές, συμπεριλαμβανομένου του
Andreessen Horowitz
και του συνιδρυτή της DeepMind, Mustafa Suleyman, σε αποτίμηση 99 δολαρίων, σχεδιάζει να επεκτείνει τελικά τα μοντέλα τεχνητής νοημοσύνης στη μεταγλώττιση φωνής – ακολουθώντας τα βήματα των startups όπως το Papercup και το Deepdub και χτίζοντας αυτό που αποκαλεί «Ένα θεμέλιο για να μπορούμε να μεταφέρουμε συναισθήματα και τονισμό από τη μια γλώσσα στην άλλη».
Πέρα από αυτό, το λέει η ElevenLabs
σχεδιάζει να εισαγάγει έναν μηχανισμό που θα επιτρέπει στους χρήστες να μοιράζονται φωνές στην πλατφόρμα, αν και οι λεπτομέρειες παραμένουν ασαφείς.
