MyShell: Δοκιμάσαμε το νέο μοντέλο OpenVoice
Eleven Labs
, οι οποίες έχουν εξασφαλίσει σημαν
τι
κή χρηματοδότηση για την προώθηση των αποκλειστικών αλγορίθμων και του λογισμικού που βασίζεται σε AI. Αυτά τα εργαλεία έχουν σχεδιαστεί για να δημιουργούν ηχητικά αντίγραφα ανθρώπινων φωνών.
Ωστόσο, μια ενδιαφέρουσα εξέλιξη προέκυψε με το OpenVoice, μια συλλογική δημιουργία ομάδων από το Ινστιτούτο Τεχνολογίας της Μασαχουσέτης (MIT), το Πανεπιστήμιο Tsinghua στο Πεκίνο και την καναδική εταιρεία AI MyShell.
Το
OpenVoice είναι μια
πλατφόρμα
ανοιχτού κώδικα για κλωνοποίηση φωνής, που διακρίνεται για την ταχεία επεξεργασία και τις προηγμένες επιλογές προσαρμογής, που το ξεχωρίζουν από τις υπάρχουσες τεχνολογίες κλωνοποίησης φωνής.
Σήμερα, ανοίγουμε περήφανα τον αλγόριθμό μας OpenVoice, υιοθετώντας το βασικό μας ήθος – AI για όλους.
Ζήστε το τώρα:
https://t.co/zHJpeVpX3t
. Κλωνοποιήστε φωνές με απαράμιλλη ακρίβεια, με λεπτομερή έλεγχο του τόνου, από το συναίσθημα μέχρι την προφορά, τον ρυθμό, τις παύσεις και τον τονισμό, χρησιμοποιώντας μόνο ένα…
pic.twitter.com/RwmYajpxOt
— MyShell (@myshell_ai)
2 Ιανουαρίου 2024
Για να βελτιώσει την προσβασιμότητα και τη διαφάνεια, η εταιρεία μοιράστηκε έναν σύνδεσμο προς τον ενδελεχή έλεγχο
ερευνητική εργασία
περιγράφοντας λεπτομερώς την ανάπτυξη του OpenVoice. Επιπλέον, έχουν παράσχει σημεία πρόσβασης στους χρήστες για να πειραματιστούν με αυτήν την τεχνολογία. Αυτά περιλαμβάνουν τη διεπαφή της εφαρμογής web MyShell, η οποία απαιτεί εγγραφή χρήστη και
Πρόσωπο αγκαλιάς
προσβάσιμο στο κοινό χωρίς κανένα λογαριασμό.
Η MyShell δεσμεύεται να συνεισφέρει στην ευρύτερη ερευνητική κοινότητα, βλέποντας το OpenVoice ως την αρχή. Κοιτάζοντας το μέλλον, σχεδιάζουν να επεκτείνουν την υποστήριξη μέσω επιχορηγήσεων, συνόλων δεδομένων και υπολογιστικών πόρων για την ενίσχυση της έρευνας ανοιχτού κώδικα. Η κατευθυντήρια αρχή του MyShell είναι το «AI for All», δίνοντας έμφαση στη σημασία της γλώσσας, του οράματος και της φωνής ως τα τρία βασικά συστατικά της μελλοντικής Τεχνητής Γενικής Νοημοσύνης (AGI).
Στον τομέα της έρευνας, ενώ οι τρόποι γλώσσας και οράματος έχουν δει σημαντικές εξελίξεις σε μοντέλα ανοιχτού κώδικα, παραμένει ένα κενό στον τομέα της φωνής. Συγκεκριμένα, υπάρχει ανάγκη για ένα ισχυρό μοντέλο κλωνοποίησης φωνής με άμεση απόκριση που να προσφέρει προσαρμόσιμες δυνατότητες δημιουργίας φωνής. Το MyShell στοχεύει να καλύψει αυτό το κενό, πιέζοντας τα όρια της τεχνολογίας φωνής στο AGI.
Γνωρίστε το Murf AI: Εκφωνήσεις από κείμενο σε ομιλία σε δευτερόλεπτα
Πώς να χρησιμοποιήσετε το Myshell AI;
Ακολουθήστε αυτά τα βήματα:
- Μεταβείτε στον επίσημο ιστότοπο του MyShell AI.
- Κάντε κλικ στο “Έναρξη της εφαρμογής”
- Επιλέξτε «Συζήτηση» από την αριστερή πλευρά.

- Για να χρησιμοποιήσετε τη λειτουργία “MyShell Voice Clone”, πρέπει να εγγραφείτε με έναν λογαριασμό. Μπορείτε πάντα να χρησιμοποιήσετε έναν λογαριασμό Google.
- Στη συνέχεια κάντε κλικ στο “Έναρξη”, βρίσκεται στο κάτω μέρος της σελίδας.
- Ανεβάστε μια ηχογράφηση φωνής και εισαγάγετε το αγγλικό κείμενο που θέλετε να μετατρέψετε σε ήχο.

- Πατήστε “Δημιουργία”, αυτό θα κοστίσει 10 νομίσματα εντός εφαρμογής.

- Η έξοδος σας θα σας σταλεί μέσω συνομιλίας.
Σημείωση του συντάκτη:
Για αναφορά, ανέβασα μια δική μου ηχογράφηση, η οποία λέει:
«Η τεχνολογία κλωνοποίησης φωνής κάνει βήματα προόδου και μια αξιοσημείωτη πρόοδος έχει σημειωθεί από νεοφυείς επιχειρήσεις όπως η ElevenLabs».
Στη συνέχεια, ζήτησε μια έξοδο, η οποία λέει:
Αυτό το αρχείο ήχου δημιουργήθηκε χρησιμοποιώντας MyShell AI. Εσείς κρίνετε πόσο επιτυχημένο ήταν!».
Εισαγωγή:
Παραγωγή:
Δεν θα έλεγα την έξοδο πολύ επιτυχημένη, αλλά είναι εκπληκτικό να βλέπεις πόσο γρήγορο είναι. Προσθέστε ότι δεν είμαι μητρικός ομιλητής.
Πώς λειτουργεί η τεχνολογία OpenVoice;
Η τεχνολογία OpenVoice, που αναπτύχθηκε από τους Qin, Wenliang Zhao και Xumin Yu από το Πανεπιστήμιο Tsinghua, μαζί με τον Xin Sun από το MyShell, αρθρώνεται στην επιστημονική τους εργασία. Αυτή η τεχνητή νοημοσύνη κλωνοποίησης φωνής βασίζεται σε μια αρχιτεκτονική διπλού μοντέλου: ένα μοντέλο Text-to-Speech (TTS) και έναν “μετατροπέα τόνου”.
Το μοντέλο TTS είναι υπεύθυνο για τη διαχείριση παραμέτρων στυλ και γλωσσών. Εκπαιδεύτηκε χρησιμοποιώντας 30.000 προτάσεις δειγμάτων ήχου, τα οποία περιελάμβαναν φωνές με αμερικανική και βρετανική προφορά στα αγγλικά, καθώς και ομιλητές Κινέζων και Ιαπωνικών. Αυτά τα δείγματα είχαν διακριτική σήμανση για να αντικατοπτρίζουν τα συναισθήματα που εκφράζονται σε αυτά. Το μοντέλο έμαθε αποχρώσεις όπως τον τονισμό, τον ρυθμό και τις παύσεις από αυτά τα κλιπ.
Από την άλλη πλευρά, το μοντέλο μετατροπέα τόνου εκπαιδεύτηκε με ένα εκτεταμένο σύνολο δεδομένων με περισσότερα από 300.000 δείγματα ήχου από περισσότερα από 20.000 διαφορετικά ηχεία.
Και στα δύο μοντέλα, ο ήχος της ανθρώπινης ομιλίας μετατράπηκε σε φωνήματα – τις βασικές ηχητικές μονάδες που διαφοροποιούν τις λέξεις. Αυτά στη συνέχεια αναπαρίστανται μέσω ενσωματώσεων διανυσμάτων.
Η μοναδική διαδικασία περιλαμβάνει τη χρήση ενός «βασικού ηχείου» στο μοντέλο TTS, σε συνδυασμό με έναν τόνο που προέρχεται από τον ηχογραφημένο ήχο ενός χρήστη. Αυτός ο συνδυασμός επιτρέπει στα μοντέλα όχι μόνο να αναπαράγουν τη φωνή του χρήστη αλλά και να τροποποιούν το «χρώμα τόνου», που σημαίνει τη συναισθηματική έκφραση του προφορικού κειμένου.
Η ομάδα συμπεριέλαβε ένα διάγραμμα στην εργασία της για να δείξει πώς αλληλεπιδρούν αυτά τα δύο μοντέλα:

Πίστωση εικόνας
)
Τονίζουν ότι η μέθοδός τους είναι εννοιολογικά απλή αλλά αποτελεσματική. Απαιτεί επίσης σημαντικά λιγότερους υπολογιστικούς πόρους σε σύγκριση με άλλες μεθόδους κλωνοποίησης φωνής, όπως το Voicebox της Meta.
«Θέλαμε να αναπτύξουμε το πιο ευέλικτο μοντέλο στιγμιαίας κλωνοποίησης φωνής μέχρι σήμερα. Η ευελιξία εδώ σημαίνει ευέλικτο έλεγχο σε στυλ/συναισθήματα/προφορά κ.λπ. και μπορεί να προσαρμοστεί σε οποιαδήποτε γλώσσα. Κανείς δεν μπορούσε να το κάνει αυτό πριν, γιατί είναι πολύ δύσκολο. Οδηγώ μια ομάδα έμπειρων επιστημόνων τεχνητής νοημοσύνης και πέρασα αρκετούς μήνες για να βρω τη λύση. Διαπιστώσαμε ότι υπάρχει ένας πολύ κομψός τρόπος για να αποσυνδέσουμε τη δύσκολη εργασία σε μερικές εφικτές δευτερεύουσες εργασίες για να επιτύχουμε αυτό που φαίνεται να είναι πολύ δύσκολο συνολικά. Ο αποσυνδεδεμένος αγωγός αποδεικνύεται πολύ αποτελεσματικός αλλά και πολύ απλός», δήλωσε ο Qin σε ένα email που ανέφερε
VentureBeat
.
VIA:
DataConomy.com

