Η πλατφόρμα δημιουργίας φωνής ElevenLabs συγκεντρώνει 19 εκατομμύρια δολάρια και λανσάρει το εργαλείο ανίχνευσης
Related Posts
Eleven Labs
η ιογενής πλατφόρμα τεχνητής νοημοσύνης για τη δημιουργία συνθετικών φωνών, έχει συγκεντρώσει έναν νέο γύρο μετρητών.
Σήμερα, η startup ανακοίνωσε το κλείσιμο ενός κύκλου Series A $19 εκατομμυρίων με επικεφαλής τους επιχειρηματίες Nat Friedman και Daniel Gross μαζί με τον Andreessen Horowitz. Άλλοι συμμετέχοντες ήταν οι βαρέων βαρών Creator Ventures, ο SV Angel, ο συνιδρυτής του Instagram Mike Krieger, ο συνιδρυτής της Oculus Brendan Iribe, ο συνιδρυτής της Deepmind and Inflection AI Mustafa Suleyman και ο ιδρυτής της O’Reilly Media, Tim O’Reilly.
Μια πηγή εξοικειωμένη με το θέμα λέει στο TechCrunch ότι η δόση αποτιμά το ElevenLabs στα 99 εκατομμύρια δολάρια μετά το χρήμα – ένα αξιοσέβαστο νούμερο, ειδικά αν σκεφτεί κανείς ότι η startup ξεκίνησε λίγο περισσότερο από ένα χρόνο πριν.
«Αυτή η επένδυση θα χρησιμοποιηθεί για να συνεχιστεί η κατασκευή
ElevenLab
είναι ο κορυφαίος ερευνητικός κόμβος της φωνητικής τεχνητής νοημοσύνης και η κυκλοφορία μιας σειράς πρόσθετων προϊόντων για την υποστήριξη συγκεκριμένων κλάδους της αγοράς, όπως εφαρμογές δημοσίευσης, παιχνιδιών, ψυχαγωγίας και συνομιλίας», δήλωσε στο TechCrunch ο συνιδρυτής και διευθύνων σύμβουλος Mati Staniszewski μέσω email.
Το ElevenLabs, το οποίο έγινε πρωτοσέλιδο τους τελευταίους μήνες και για τους δύο λόγους
Καλός
και
απεχθής
, ιδρύθηκε από τον Staniszewski, ο οποίος εργαζόταν στο παρελθόν στο Palantir, και τον παιδικό του φίλο Piotr Dabkowski, πρώην υπάλληλο της
Google
. Εμπνευσμένο από τη μέτρια μεταγλώττιση αμερικανικών ταινιών που έβλεπαν μεγαλώνοντας στην Πολωνία, την πατρίδα τους, το ζευγάρι ξεκίνησε να σχεδιάσει μια πλατφόρμα που θα μπορούσε να τα πάει καλύτερα — αξιοποιώντας φυσικά την τεχνητή νοημοσύνη.
Το ElevenLabs μπορεί να μετατρέψει κείμενο σε ομιλία χρησιμοποιώντας συνθετικές φωνές, κλωνοποιημένες φωνές ή εντελώς πρωτότυπες «τεχνητές» φωνές που μιμούνται τους ήχους ανθρώπων διαφόρων φύλων, ηλικιών και εθνοτήτων. Τα μοντέλα μετατροπής κειμένου σε ομιλία AI της εταιρείας είναι αγνωστικά στη γλώσσα, επιτρέποντας στους εταιρικούς πελάτες να τα προσαρμόσουν και να δημιουργήσουν τα δικά τους, ιδιόκτητα μοντέλα ομιλίας στην κορυφή.
Συμπίπτοντας με την αύξηση της σειράς Α, η ElevenLabs με 15 υπαλλήλους λανσάρει το Projects, μια ροή εργασίας για την επεξεργασία και τη δημιουργία προφορικού περιεχομένου μεγάλης μορφής. Με τα Έργα, οι χρήστες μπορούν να δημιουργήσουν τμήματα διαλόγου, ακόμη και ηχητικά βιβλία, χωρίς να χρειάζεται να εγκαταλείψουν την πλατφόρμα.
«Για συνεργάτες business-to-business, η τεχνολογία μας μπορεί να χρησιμοποιηθεί σε τομείς όπως η επεκτάσιμη και πολύγλωσση δημιουργία ακουστικών βιβλίων, η έκφραση χαρακτήρων σε βιντεοπαιχνίδια, η έκφραση ψηφιακών άρθρων, η υποστήριξη ατόμων με προβλήματα όρασης για πρόσβαση σε διαδικτυακό γραπτό περιεχόμενο και η τροφοδοσία ραδιοφώνου AI», Staniszewski. είπε.
Το ElevenLabs, το οποίο κυκλοφόρησε σε έκδοση beta στα τέλη Ιανουαρίου, απέκτησε ατμό σχετικά γρήγορα – λόγω της εξαιρετικά υψηλής ποιότητας των φωνών που δημιουργούνται, των ταχέων χρόνων παραγωγής και της γενναιόδωρης δωρεάν βαθμίδας. Όμως, όπως αναφέρθηκε προηγουμένως, η δημοσιότητα δεν ήταν πάντα θετική – ιδιαίτερα όταν κακοί ηθοποιοί άρχισαν να εκμεταλλεύονται την πλατφόρμα για τους δικούς τους σκοπούς.
Το ElevenLabs προσφέρει εργαλεία για την κλωνοποίηση — ή τη δημιουργία από την αρχή — φωνών με ρεαλιστικό ήχο, αξιοποιώντας την τεχνητή νοημοσύνη.
4chan, ο διαβόητος πίνακας μηνυμάτων γνωστός για το συνωμοτικό του περιεχόμενο,
μεταχειρισμένος
Το εργαλείο της ElevenLabs για να μοιράζεται μηνύματα μίσους που μιμούνται διασημότητες όπως η ηθοποιός Emma Watson. Αλλού, ο James Vincent του The.Verge μπόρεσε να πατήσει το ElevenLabs για να κλωνοποιήσει τις φωνές των στόχων μέσα σε λίγα δευτερόλεπτα —
δημιουργώντας
δείγματα ήχου που περιέχουν τα πάντα, από απειλές βίας έως εκφράσεις ρατσισμού και τρανσφοβίας.
Σε απάντηση, η ElevenLabs είπε ότι θα εισαγάγει ένα σύνολο νέων διασφαλίσεων, όπως τον περιορισμό της κλωνοποίησης φωνής σε λογαριασμούς επί πληρωμή, την απαγόρευση των χρηστών που παραβιάζουν επανειλημμένα τους όρους παροχής υπηρεσιών και την παροχή ενός νέου εργαλείου ανίχνευσης AI.
Το εργαλείο ανίχνευσης κυκλοφορεί σήμερα. Ονομάζεται AI Speech Classifier και διατίθεται ως API σε «επιλεγμένους» συνεργάτες, έχει σχεδιαστεί για να ανιχνεύει εάν ένα μεταφορτωμένο δείγμα ήχου περιέχει περιεχόμενο που δημιουργείται από AI από την ElevenLabs.
«Η διασφάλιση ότι οι πλατφόρμες Generative AI μπορούν να υιοθετηθούν με ασφάλεια είναι μια βασική πρόκληση για ολόκληρο τον τομέα που δημιουργείται από AI, συμπεριλαμβανομένων των πλατφορμών κειμένου, εικόνας και φωνής», δήλωσε ο Staniszewski. «Πρέπει να διασφαλίσουμε ότι οι άνθρωποι εκπαιδεύονται για τη φύση του τοπίου των παραγωγικών μέσων και γνωρίζουν ότι τέτοιο περιεχόμενο υπάρχει – δεσμευόμαστε να δημιουργήσουμε εργαλεία για να βοηθήσουμε τους ανθρώπους να εντοπίσουν περιεχόμενο που δημιουργείται από AI, προς όφελος της διαφάνειας».
Ένα εθελοντικό εργαλείο ανίχνευσης – υποθέτοντας ότι λειτουργεί ακόμη και όπως διαφημίζεται – δεν θα αποτρέψει απαραίτητα την κακή συμπεριφορά. Αλλά υπάρχει ένας άλλος ελέφαντας στο δωμάτιο που η ElevenLabs δεν έχει ασχοληθεί: την υπαρξιακή απειλή που θέτει η τεχνολογία του στους φωνητικούς ηθοποιούς.
Μητρική πλακέτα
γράφει
για το πώς όλο και περισσότερο ζητείται από τους φωνητικούς ηθοποιούς να υπογράφουν δικαιώματα για τη φωνή τους μακριά, ώστε οι πελάτες να μπορούν να χρησιμοποιούν τεχνητή νοημοσύνη για να δημιουργήσουν συνθετικές εκδόσεις που θα μπορούσαν τελικά να τις αντικαταστήσουν — μερικές φορές χωρίς πρόσθετη αποζημίωση. Εσωτερικά email
δει
από τους New York Times, εν τω μεταξύ, υποδεικνύουν ότι η
Activision Blizzard
, ένας από τους μεγαλύτερους εκδότες παιχνιδιών στον κόσμο, εργάζεται σε εργαλεία για «κλωνοποίηση φωνής» με τη βοήθεια AI.
Φαίνεται ότι η ElevenLabs βλέπει αυτό ως τη φυσική εξέλιξη των πραγμάτων, διαφημίζοντας τη δουλειά της με εκδότες όπως το Storytel και πλατφόρμες μέσων όπως η TheSoul Publishing και το MNTN για ηχητικά βιβλία, βιντεοπαιχνίδια και ραδιοφωνικό περιεχόμενο. (Η Storytel και η TheSoul Publishing είναι στρατηγικοί επενδυτές.) Η εταιρεία ισχυρίζεται ότι έχει πάνω από ένα εκατομμύριο εγγεγραμμένους χρήστες στους δημιουργικούς, ψυχαγωγικούς και εκδοτικούς χώρους που έχουν δημιουργήσει ηχητικό περιεχόμενο δέκα ετών.
Η ElevenLabs σχεδιάζει να επεκτείνει τελικά τα μοντέλα τεχνητής νοημοσύνης της στη μεταγλώττιση φωνής, ακολουθώντας τα χνάρια των startups όπως το Papercup και το Deepdub και χτίζοντας αυτό που αποκαλεί «ένα θεμέλιο για να μπορεί να μεταφέρει συναισθήματα και τονισμό από τη μια γλώσσα στην άλλη».
«Αυτό θα επιτρέψει σε οποιοδήποτε βίντεο να μεταγλωττιστεί σε οποιαδήποτε γλώσσα με έναν ελκυστικό, αποτελεσματικό και κλιμακωτό τρόπο, διατηρώντας παράλληλα την αρχική φωνή του ομιλητή», γράφει η ElevenLabs σε ένα δελτίο τύπου. “[We are] διεξάγει ήδη μια σειρά δοκιμών με συνεργάτες του κλάδου για να επιτρέψει τη μεταγλώττιση τεχνητής νοημοσύνης σε κλίμακα».
Με 21 εκατομμύρια δολάρια στην τράπεζα (από τα οποία τα 2 εκατομμύρια δολάρια προήλθαν από έναν γύρο πριν την έναρξη τον Ιανουάριο), η ElevenLabs – οι συνέπειες είναι καταραμένες – επικεντρώνεται στο λέιζερ στο να νικήσει τους αντιπάλους της στον αναπτυσσόμενο χώρο παραγωγής φωνής. Περιλαμβάνουν κατεστημένους φορείς όπως η
Amazon
, η Google και η
Microsoft
καθώς και νεοφυείς επιχειρήσεις όπως οι Murf, Tavus, Resemble AI, Respeecher, Play.ht και Lovo.


