Η startup κλωνοποίησης φωνής ElevenLabs κερδίζει 80 εκατομμύρια δολάρια, επιτυγχάνει την κατάσταση του μονόκερου



Υπάρχουν πολλά χρήματα στην κλωνοποίηση φωνής.

Προκειμένη περίπτωση:

Eleven Labs

μια startup που αναπτύσσει εργαλεία με

ητή νοημοσύνη για τη δημιουργία και την επεξεργασία συνθετικών φωνών, ανακοίνωσε σήμερα ότι έκλεισε έναν κύκλο 80 εκατομμυρίων δολαρίων Series B με επικεφαλής εξέχοντες επενδυτές, όπως ο Andreessen Horowitz, ο πρώην CEO του GitHub Nat Friedman και ο επιχειρηματίας Daniel Gross.

Ο γύρος, ο οποίος είχε επίσης συμμετοχή από τις Sequoia Capital, Smash Capital, SV Angel, BroadLight Capital και Credo Ventures, ανεβάζει το σύνολο των ElevenLabs σε 101 εκατομμύρια δολάρια και αποτιμά την εταιρεία σε πάνω από 1 δισεκατομμύριο δολάρια (από ~ 100 εκατομμύρια δολάρια τον περασμένο Ιούνιο). Ο Διευθύνων Σύμβουλος Mati Staniszewski λέει ότι τα νέα μετρητά θα διατεθούν για την ανάπτυξη προϊόντων, την επέκταση της υποδομής και της ομάδας της ElevenLabs, την έρευνα τεχνητής νοημοσύνης και την «ενίσχυση των μέτρων ασφαλείας για τη διασφάλιση της υπεύθυνης και ηθικής ανάπτυξης της τεχνολογίας AI».

«Συγκεντρώσαμε τα νέα χρήματα για να εδραιώσουμε τη θέση της ElevenLabs ως παγκόσμιου ηγέτη στην έρευνα φωνητικής τεχνητής νοημοσύνης και στην ανάπτυξη προϊόντων», δήλωσε ο Staniszewski στο TechCrunch σε μια συνέντευξη μέσω email.

Το ElevenLabs, το οποίο ιδρύθηκε το 2022 από τον Piotr Dabkowski, πρώην μηχανικό μηχανικής μάθησης της Google, και τον Staniszewski, πρώην στρατηγό ανάπτυξης της Palantir, κυκλοφόρησε σε έκδοση beta περίπου πριν από έναν χρόνο. Ο Staniszewski λέει ότι αυτός και ο Dabkowski, ο οποίος μεγάλωσε στην Πολωνία, εμπνεύστηκαν τη δημιουργία εργαλείων κλωνοποίησης φωνής από κακώς μεταγλωττισμένες αμερικανικές ταινίες. Η τεχνητή νοημοσύνη θα μπορούσε να τα πάει καλύτερα, σκέφτηκαν.

Σήμερα, το ElevenLabs είναι ίσως περισσότερο γνωστό για την εφαρμογή δημιουργίας ομιλίας που βασίζεται σε πρόγραμμα περιήγησης που μπορεί να δημιουργήσει ζωντανές φωνές με ρυθμιζόμενες εναλλαγές για τον ήχο, το συναίσθημα, τον ρυθμό και άλλα βασικά φωνητικά χαρακτηριστικά. Δωρεάν, οι χρήστες μπορούν να εισάγουν κείμενο και να λάβουν μια ηχογράφηση αυτού του κειμένου που διαβάζεται δυνατά από μία από τις πολλές προεπιλεγμένες φωνές. Οι πελάτες που πληρώνουν μπορούν να ανεβάσουν δείγματα φωνής για να δημιουργήσουν νέα στυλ χρησιμοποιώντας την κλωνοποίηση φωνής της ElevenLabs.

Όλο και περισσότερο, η ElevenLabs επενδύει σε εκδόσεις της τεχνολογίας παρ

ς ομιλίας της που στοχεύουν στη δημιουργία ηχητικών βιβλίων και τη μεταγλώττιση ταινιών και τηλεοπτικών εκπομπών, καθώς και στη δημιουργία φωνών χαρακτήρων για παιχνίδια και σε δραστηριότητες μάρκετινγκ.

Πέρυσι, η εταιρεία κυκλοφόρησε ένα εργαλείο «ομιλίας σε ομιλία» που επιχειρεί να διατηρήσει τη φωνή, την προσωδία και τον τονισμό ενός ομιλητή ενώ αφαιρεί αυτόματα τον θόρυβο του περιβάλλοντος και — στην περίπτωση ταινιών και τηλεοπτικών εκπομπών — μεταφράζει και συγχρονίζει την ομιλία με το υλικό πηγής. Στον οδικό χάρτη για τις επόμενες εβδομάδες είναι μια νέα ροή εργασίας στούντιο μεταγλώττισης με εργαλεία για τη δημιουργία και την επεξεργασία μεταγραφών και μεταφράσεων και μια εφαρμογή για κινητά που βασίζεται σε συνδρομές που αφηγείται ιστοσελίδες και κείμενο χρησιμοποιώντας φωνές ElevenLabs.

Οι καινοτομίες της ElevenLabs έχουν κερδίσει τους πελάτες startup στην Paradox Interactive, τον προγραμματιστή παιχνιδιών του οποίου τα πρόσφατα έργα περιλαμβάνουν τα Cities: Skylines 2 και Stellaris και την Washington Post — μεταξύ άλλων εταιρειών εκδόσεων, μέσων ενημέρωσης και ψυχαγωγίας. Ο Staniszewski ισχυρίζεται ότι οι χρήστες του ElevenLab έχουν δημιουργήσει ήχο που ισοδυναμεί με περισσότερα από 100 χρόνια και ότι η πλατφόρμα χρησιμοποιείται από υπαλλήλους στο 41% ​​των εταιρειών του Fortune 500.

Αλλά η δημοσιότητα δεν ήταν εντελώς θετική.

Ο διαβόητος πίνακας μηνυμάτων 4chan, γνωστός για το συνωμοτικό του

,

μεταχειρισμένος

Τα εργαλεία της ElevenLabs για να μοιράζονται μηνύματα μίσους που μιμούνται διασημότητες όπως η ηθοποιός Emma Watson. Ο James Vincent του The Verge μπόρεσε να πατήσει το ElevenLabs για να κλωνοποιήσει κακόβουλα φωνές μέσα σε λίγα δευτερόλεπτα,

δημιουργώντας

δείγματα που περιέχουν τα πάντα, από απειλές βίας μέχρι ρατσιστικά και τρανσφοβικά σχόλια. Και στο Vox, ο ρεπόρτερ Τζόζεφ Κοξ

τεκμηριωμένη

δημιουργώντας έναν κλώνο αρκετά πειστικό ώστε να ξεγελάσει το σύστημα ελέγχου ταυτότητας μιας τράπεζας.

Σε απάντηση, η ElevenLabs προσπάθησε να ξεριζώσει χρήστες που παραβιάζουν επανειλημμένα τους όρους παροχής υπηρεσιών της, οι οποίοι απαγορεύουν την κατάχρηση, και κυκλοφόρησε ένα εργαλείο για τον εντοπισμό ομιλίας που δημιουργήθηκε από την πλατφόρμα της. Φέτος, η ElevenLabs σχεδιάζει να βελτιώσει το εργαλείο ανίχνευσης για να επισημάνει τον ήχο από άλλα μοντέλα τεχνητής νοημοσύνης που παράγουν φωνή και να συνεργαστεί με ανώνυμα “παίκτες διανομής” για να κάνει το εργαλείο διαθέσιμο σε

τρίτων, λέει ο Staniszewski.

Το ElevenLabs προσφέρει μια σειρά από διαφορετικές φωνές, μερικές συνθετικές, μερικές κλωνοποιημένες από φωνητικούς ηθοποιούς.

Η ElevenLabs έχει επίσης αντιμετωπίσει κριτική από φωνητικούς ηθοποιούς που ισχυρίζονται ότι η εταιρεία χρησιμοποιεί δείγματα της φωνής τους χωρίς τη συγκατάθεσή τους – δείγματα που θα μπορούσαν να αξιοποιηθούν για την προώθηση περιεχομένου που δεν υποστηρίζουν ή για τη διάδοση παραπληροφόρησης και παραπληροφόρησης. Σε ένα

πρόσφατος

Το άρθρο του Vice, τα θύματα αφηγούνται πώς το ElevenLabs χρησιμοποιήθηκε σε εκστρατείες παρενόχλησης εναντίον τους, σε ένα παράδειγμα για να μοιραστούν τις προσωπικές πληροφορίες ενός ηθοποιού – τη διεύθυνση του σπιτιού τους – χρησιμοποιώντας μια κλωνοποιημένη φωνή.

Έπειτα, υπάρχει ο ελέφαντας στο δωμάτιο: οι πλατφόρμες υπαρξιακής απειλής, όπως η ElevenLabs, παρουσιάζουν στον κλάδο της φωνητικής υποκριτικής.

Μητρική πλακέτα

γράφει

για το πώς όλο και περισσότερο ζητείται από τους φωνητικούς ηθοποιούς να υπογράφουν δικαιώματα για τη φωνή τους, ώστε οι πελάτες να μπορούν να χρησιμοποιούν την τεχνητή νοημοσύνη για να δημιουργήσουν συνθετικές εκδόσεις που θα μπορούσαν τελικά να τις αντικαταστήσουν — μερικές φορές χωρίς ανάλογη

. Ο φόβος είναι ότι η φωνητική εργασία – ιδιαίτερα φθηνή, βασική δουλειά – θα αντικατασταθεί τελικά από φωνητικά που δημιουργούνται από την τεχνητή νοημοσύνη και ότι οι ηθοποιοί δεν θα έχουν καμία προσφυγή.

Ορισμένες πλατφόρμες προσπαθούν να βρουν μια ισορροπία. Νωρίτερα αυτό το μήνα, η Replica Studios, ένας ανταγωνιστής της ElevenLabs, υπέγραψε συμφωνία με την SAG-AFTRA για τη δημιουργία και την αδειοδότηση ψηφιακών αντιγράφων των φωνών των μελών της ένωσης καλλιτεχνών μέσων. Σε ένα δελτίο τύπου, οι οργανισμοί δήλωσαν ότι η συμφωνία θέσπισε «δίκαιους» και «ηθικούς» όρους και προϋποθέσεις για να εξασφαλίσει τη συναίνεση των ερμηνευτών — και οι όροι διαπραγμάτευσης για τη χρήση της ψηφιακής φωνής διπλασιάζονται σε νέα έργα.

Ωστόσο, ακόμη και αυτό δεν άρεσε σε ορισμένους φωνητικούς ηθοποιούς – συμπεριλαμβανομένων των SAG-AFTRA

δικά τους μέλη

.

Η λύση της ElevenLabs είναι μια αγορά για φωνές. Αυτήν τη στιγμή σε alpha και πρόκειται να γίνει ευρύτερα διαθέσιμο τις επόμενες εβδομάδες, η αγορά επιτρέπει στους χρήστες να δημιουργήσουν μια φωνή, να την επαληθεύσουν και να την μοιραστούν. Όταν άλλοι χρησιμοποιούν μια φωνή, οι αρχικοί δημιουργοί λαμβάνουν αποζημίωση, λέει ο Staniszewski.

«Οι χρήστες διατηρούν πάντα τον έλεγχο της διαθεσιμότητας και των όρων αποζημίωσης της φωνής τους», πρόσθεσε. «Η αγορά έχει σχεδιαστεί ως ένα βήμα προς την εναρμόνιση των προόδων της τεχνητής νοημοσύνης με τις καθιερωμένες πρακτικές του κλάδου, ενώ παράλληλα φέρνει ένα ποικίλο σύνολο φωνών στην πλατφόρμα της ElevenLabs».

Οι φωνητές μπορεί να αμφισβητήσουν το γεγονός ότι η ElevenLabs δεν πληρώνει σε μετρητά, ωστόσο — τουλάχιστον όχι προς το παρόν. Η τρέχουσα ρύθμιση έχει τους δημιουργούς να λαμβάνουν εύσημα για τις premium υπηρεσίες της ElevenLabs (κάτι που κάποιοι βρίσκουν ειρωνικό, θα έβαζα στοίχημα).

Ίσως αυτό να αλλάξει στο μέλλον, καθώς η ElevenLabs – η οποία συγκαταλέγεται πλέον στις καλύτερα χρηματοδοτούμενες νεοσύστατες συνθετικές φωνητικές εταιρίες – επιχειρεί να νικήσει τον νέο ανταγωνισμό όπως οι Papercup, Deepdub, ElevenLabs, Acapela, Respeecher και Voice.ai καθώς και κατεστημένες εταιρείες Big Tech όπως όπως η Amazon, η Microsoft και η Google. Σε κάθε περίπτωση, η ElevenLabs, η οποία σχεδιάζει να αυξήσει τον αριθμό των εργαζομένων της από 40 άτομα σε 100 μέχρι το τέλος του έτους, σκοπεύει να παραμείνει – και να κάνει τα κύματα – στην ταχέως αναπτυσσόμενη αγορά συνθετικής φωνής.


VIA:

techcrunch.com


Follow TechWar.gr on Google News


Leave A Reply



Cancel Reply

Your email address will not be published.