Το Voice.ai συγκεντρώνει 6 εκατομμύρια δολάρια, καθώς το πρόγραμμα αλλαγής φωνής σε πραγματικό χρόνο πλησιάζει τους 500.000 χρήστες
Related Posts
Υπηρεσίες όπως το Midjourney και το
ChatGPT
έχουν ξεπεράσει τα όρια του τρόπου με τον οποίο η τεχνητή νοημοσύνη μπορεί να δημιουργήσει εικόνες και κείμενο εκτός βασικών μηνυμάτων κειμένου. Τώρα, ο ήχος φαίνεται να είναι το αναπόφευκτο επόμενο σύνορο. Η παραγωγή μουσικής βασισμένη σε προτροπές λέξεων, οι δάσκαλοι τεχνητής νοημοσύνης για εκμάθηση γλωσσών και οι προσομοιωτές φωνής έχουν δει εξελίξεις τους τελευταίους μήνες.
Φωνή.ai
ελπίζει να είναι μέρος αυτής της συζήτησης (heh) με την τεχνολογία που επιτρέπει στους χρήστες να αλλάζουν (και να συγκαλύπτουν) τη φωνή τους σε πραγματικό χρόνο και τώρα έχει συγκεντρώσει την πρώτη εξωτερική χρηματοδότηση μετά την πρώιμη ανάπτυξη.
Με περισσότερους από 480.000 χρήστες και μια βιβλιοθήκη με περισσότερα από 50.000 φίλτρα φωνής, το Voice.ai έχει συγκεντρώσει 6 εκατομμύρια δολάρια, χρηματοδότηση που σκοπεύει να χρησιμοποιήσει για να μεταφέρει την τεχνολογία αλλαγής φωνής σε νέα μέρη.
Η Mucker Capital και η M13 οδηγούν τον γύρο. Πριν από τώρα, το Voice.ai είχε αναπτυχθεί από στόμα σε στόμα – η startup έχει ένα κανάλι Discord με περισσότερα από 120.000 άτομα – έναντι 3 εκατομμυρίων δολαρίων αυτοχρηματοδότησης.
Επί του παρόντος, τα εργαλεία της εταιρείας — διαθέσιμα ως εφαρμογές για Mac, PC, Android και iOS — υιοθετούνται από gamers, δημιουργούς περιεχομένου, Vtubers και άλλους στα TikTok, Zoom, Discord, Minecraft, GTA5, Fortnite, Valorant, League of Legends, Among Us , Skype,
WhatsApp
και
άλλες πλατφόρμες
. Η διεπαφή Voice.ai τους επιτρέπει να δημιουργήσουν μια νέα φωνή ή να επιλέξουν από περίπου 50.000 διαφορετικές προ-δημιουργημένες φωνές (δημιουργήθηκαν και κοινοποιήθηκαν από χρήστες σαν τους ίδιους), οι οποίες μπορούν να χρησιμοποιηθούν ως έχουν ή να τροποποιηθούν, για να χρησιμοποιηθούν ζωντανά σε υποστηριζόμενες πλατφόρμες ή για ηχογραφήσεις.
Το σχέδιο είναι να χρησιμοποιηθεί η χρηματοδότηση για την πρόσληψη περισσότερων τεχνικών ταλέντων και τη δημιουργία νέων SDK και API για συνεργασία με περαιτέρω πλατφόρμες όπως το Meta, το Unreal και το Unity. φέρνουν σε πολυγλωσσική υποστήριξη? και προσθέστε νέες εφαρμογές όπως το τραγούδι, όπου η φωνή είναι στο επίκεντρο.
Η startup δεν το ξεχωρίζει, αλλά θα έχει ενδιαφέρον να δούμε αν χρησιμοποιεί μέρος της χρηματοδότησης και για να αυξήσει τη χωρητικότητα του διακομιστή.
Αυτό δεν είναι μικρό βάρος. Ανέκδοτα, έχουμε ακούσει ότι ο πόνος της GPU είναι ένας από τους μεγαλύτερους παράγοντες πύλης στον τρόπο με τον οποίο πολλές εφαρμογές τεχνητής νοημοσύνης μπορούν να κλιμακωθούν αυτήν τη στιγμή. (Αυτός είναι εν μέρει ο λόγος που βλέπετε να γίνονται μεγάλες συμφωνίες που περιλαμβάνουν στρατηγικές που παρέχουν επεξεργασία και χωρητικότητα διακομιστή.)
Ειδικά για το Voice.ai, η φωνή σας επεξεργάζεται τοπικά και διοχετεύεται σε οπουδήποτε θα χρησιμοποιηθεί μέσω αυτού που μου περιέγραψε ο ιδρυτής και διευθύνων σύμβουλος Heath Ahrens ως «εικονικό καλώδιο ήχου». Αλλά όταν κοιτάζετε τις κριτικές των εφαρμογών του, ένα κοινό θρήνο είναι ότι όταν εγγραφείτε θα μπείτε σε λίστα αναμονής επειδή “η συντριπτική ζήτηση έχει τους διακομιστές μας στη μέγιστη χωρητικότητα” με την υπόσχεση ότι θα ενημερωθείτε όταν αυξηθεί η υπηρεσία ότι χωρητικότητα.
Υπάρχουν δεκάδες υπηρεσίες ομιλίας σε φωνή και φωνής σε ομιλία στην αγορά σήμερα, και ήδη μεγάλη δραστηριότητα μεταξύ αυτών: Πέρυσι η
Spotify
εξαγόρασε τη Sonantic και η Snap αγόρασε έναν φωνητικό βοηθό τεχνητής νοημοσύνης ακόμη νωρίτερα. μια άλλη startup, η Sanas, εργάζεται για να αλλάξει την προφορά σας και υπάρχουν οι προσομοιωτές φωνής Murf και Acapela, μεταξύ πολλών άλλων. Το Voice.ai συγκαταλέγεται στην ίδια γενική κατηγορία με το Respeecher και το ElevenLabs, δύο startups τεχνητής νοημοσύνης φωνής με φωνή, επιτρέποντας στους χρήστες να εφαρμόζουν μάσκες για να τροποποιήσουν ή να μεταμορφώσουν πλήρως τις φωνές τους — σε ορισμένες περιπτώσεις δημιουργώντας εντελώς συνθετικές φωνές στη θέση της πραγματικής.
Ομιλητής
, που ιδρύθηκε και εδρεύει στην Ουκρανία, έκανε όνομα βοηθώντας στη δημιουργία μιας νέας φωνής του Darth Vader για τις νέες δόσεις του Star Wars, με βάση τον τρόπο που ακουγόταν ο Τζέιμς Ερλ Τζόουνς πριν από 45 χρόνια όταν ανέλαβε τον ρόλο. (Σύμφωνο με έναν χαρακτήρα που θέλει να καταστρέψει κόσμους,
Η φωνή του Νταρθ παραδόθηκε
στον πελάτη του Χόλιγουντ από τα γραφεία του στην Ουκρανία καθώς η Ρωσία εισερχόταν στη χώρα.)
ElevenLabs — περίφημα (ή διαβόητα
ανάλογα με την περίπτωση
) — έχει δημιουργήσει μια πλατφόρμα που είναι τρομακτικά καλή στην κλωνοποίηση φωνών και νωρίτερα αυτό το μήνα πήρε τον πιο πρόσφατο κύκλο χρηματοδότησης των 19 εκατομμυρίων δολαρίων από μια ομάδα επενδυτών μεγάλων επωνύμων.
Το Voice.ai προσπαθεί, σε αυτό το μείγμα, να τοποθετηθεί ως η εφαρμογή τροποποίησης φωνής AI για Everyman.
«Υπάρχουν πολλές εταιρείες που προσπαθούν να προσφέρουν μια διαφορετική γεύση τεχνολογίας φωνής στις επιχειρήσεις», είπε ο Ahrens στο TechCrunch σε ένα email (ειρωνικά, δεν ήταν δυνατό να κανονίσουμε μια ζωντανή συνέντευξη μαζί του). Ο Ahrens έχει κάποια εμπειρία με τη δημιουργία τεχνολογίας B2B AI: οι δύο προηγούμενες εταιρείες του — το iSpeech για μετατροπή κειμένου σε ομιλία και Haystack για αναγνώριση προσώπου — βασίζονται σε προσφορές API.
«Αυτό που ξεχωρίζει το Voice.ai είναι ότι επικεντρωνόμαστε στο να φέρουμε την τεχνολογία που προηγουμένως προοριζόταν για επιχειρηματικές εταιρείες απευθείας στα χέρια των καταναλωτών με προσιτό τρόπο». Πολλοί χρήστες, σημείωσε, «έρχονται σε εμάς από την κλασική
DSP
εναλλάκτες φωνής και διαμορφωτές φωνής που χρησιμοποιούσαν στο παρελθόν και οι οποίοι εξακολουθούν να είναι δημοφιλείς μεταξύ πολλών παικτών και streamers.”
Το “Affordable” διατίθεται σε δύο επίπεδα, με τους περισσότερους χρήστες τώρα σε μια δωρεάν υπηρεσία που τους απαιτεί να επιλέξουν να παρέχουν υπολογιστική ισχύ για την εκπαίδευση των μοντέλων του Voice.ai, με την υπηρεσία του να βασίζεται στο δικό του σύνολο ιδιωτικών δεδομένων που αποτελείται από “εκατομμύρια μοναδικούς χρήστες .» Δεν παρέχεται τιμολόγηση στον ιστότοπο: ζητάμε αυτές τις λεπτομέρειες.
«Πιστεύουμε στο να κάνουμε την τεχνολογία προσβάσιμη και σχεδιάζουμε να συνεργαστούμε με την κοινότητα ανοιχτού κώδικα για τον εκδημοκρατισμό της τεχνολογίας Voice AI», πρόσθεσε ο Ahrens.
Το Voice.ai ισχυρίζεται επίσης ότι υιοθετεί μια θεμελιωδώς διαφορετική προσέγγιση στην πρόκληση της αλλαγής μιας φωνής, αξιοποιώντας μερικά από τα ήθη που έχουν δημιουργηθεί γύρω από τη χρήση avatars από Vtubers, παίκτες και άλλους στο διαδίκτυο.
«Οι περισσότερες εταιρείες φωνητικής τεχνητής νοημοσύνης που έρχονται στο διάστημα προσπαθούν να δημιουργήσουν επεκτάσιμες επιχειρηματικές λύσεις κειμένου σε ομιλία ή ακριβές υπηρεσίες φωνής σε φωνή για στούντιο παραγωγής», είπε ο Ahrens. «Ξεκινάμε από το αντίθετο φάσμα και προσπαθούμε να προσφέρουμε αξία σε άτομα που θέλουν να επεκτείνουν τον τρόπο που ακούγονται στο διαδίκτυο. Η βασική πρόταση αξίας της τεχνητής νοημοσύνης ομιλίας σε ομιλία μας δεν είναι ότι μπορεί να αντιγράψει τέλεια οποιοδήποτε δεδομένο άτομο. Είναι ότι διατηρεί τα βασικά στοιχεία της ομιλίας ενός χρήστη: το συναίσθημά του, τον ρυθμό και την έμφαση ενώ αντικαθιστά τον ήχο της φωνής, προκειμένου να δημιουργήσει ένα εντελώς μοναδικό νέο τελικό αποτέλεσμα, σε πραγματικό χρόνο.”
Μπορεί να οφείλεται στο ότι τα δημογραφικά στοιχεία σε διαδραστικές πλατφόρμες όπως το gaming είναι λοξά, αλλά προς το παρόν το κοινό του Voice.ai είναι 70% άνδρες έναντι 30% γυναίκες, με νέες κατηγορίες να ανοίγουν όχι μόνο γύρω από το ποιος χρησιμοποιεί την τεχνολογία, αλλά και γιατί.
Αυτό περιλαμβάνει όχι μόνο εκείνους που χρησιμοποιούν άβαταρ και δημιουργούν φωνές για να τους ταιριάζουν, ή εκείνους που αναζητούν περισσότερη προστασία απορρήτου, αλλά επίσης, είπε, «τρανς χρήστες που μπορούν να εκπροσωπηθούν με φωνές που ταιριάζουν με την ταυτότητά τους, καθώς και χρήστες που εξερευνούν εντελώς νέα στο διαδίκτυο πρόσωπα για τον εαυτό τους».
Υπάρχει ήδη μια βάση χρηστών που αξιοποιούν τις προσφορές του Voice.ai απευθείας στους καταναλωτές, αλλά ένας από τους λόγους για τους οποίους η Mucker επενδύει στην εκκίνηση είναι επειδή πιστεύει ότι υπάρχει μια ευκαιρία να δημιουργηθεί ένα δίκτυο προγραμματιστών που χρησιμοποιούν και ενσωματώνουν η τεχνολογία του.
“Το Voice.ai είναι έτοιμο να φέρει επανάσταση στην κοινότητα προγραμματιστών τεχνητής νοημοσύνης με τρόπο παρόμοιο με τον αντίκτυπο του AdMob στην κοινότητα προγραμματιστών εφαρμογών για κινητά”, δήλωσε ο Omar Hamoui, συνεργάτης στην κύρια επενδυτή Mucker Capital. (Ο Hamoui ίδρυσε προηγουμένως την εκκίνηση διαφημίσεων για κινητές συσκευές AdMob, που τελικά εξαγοράστηκε από την
Google
, επομένως έχει κάποια άμεση εμπειρία στη δημιουργία εργαλείων προγραμματιστών για κινητά.) «Προσφέροντας φιλικές προς το χρήστη λύσεις που κάποτε ήταν αποκλειστικές για μεγάλες επιχειρήσεις, το Voice.ai στοχεύει στον εκδημοκρατισμό της πρόσβασης για προγραμματιστές σε όλο τον κόσμο.”
Ο Karl Alomar, πρώην COO της Digital Ocean, ο οποίος ηγήθηκε της επένδυσης για το M13, είπε ότι οι επενδυτές θα αναλάβουν ενεργό ρόλο στο επόμενο στάδιο ανάπτυξης. «Και στην Digital Ocean είδαμε την αξία της οικοδόμησης μιας κοινότητας κατασκευαστών από κατασκευαστές», είπε. “Είμαστε ενθουσιασμένοι που οι δημιουργοί και οι προγραμματιστές χτίζουν στην πλατφόρμα Voice.ai.”


