Η Meta κυκλοφορεί μια γεννήτρια μουσικής AI που δημιουργεί μουσική από κείμενο
Πρόσφατα, η
Meta
και η
Microsoft
ένωσαν τις δυνάμεις τους για να παρουσιάσουν το νέο Llama 2 – ένα μοντέλο τεχνητής νοημοσύνης μεγάλης γλώσσας επόμενης γενιάς, με αποτέλεσμα η εταιρεία του
Mark Zuckerberg
να εργάζεται σε πολλά παραγωγικά εργαλεία AI για το
Instagram
, συμπεριλαμβανομένου ενός που βοηθά στον εντοπισμό περιεχομένου που δημιουργείται από AI. Ένα τέτοιο εργαλείο μπορεί να χρειαζόταν περισσότερο από όσο πιστεύαμε, καθώς η Meta παρουσίασε τώρα το τελευταίο της έργο.
ανάρτηση
, η Meta παρουσίασε το τελευταίο της εργαλείο AI, το AudioCraft, το οποίο παράγει, σύμφωνα με την εταιρεία, υψηλής ποιότητας, ρεαλιστικό ήχο και μουσική από κείμενο. Η εταιρεία λέει ότι αυτό το εργαλείο θα βοηθούσε, για παράδειγμα, “
ένας ιδιοκτήτης μικρής επιχείρησης προσθέτει εύκολα ένα soundtrack στην τελευταία του διαφήμιση βίντεο στο Instagram
.”
Επομένως, αυτό μπορεί επίσης να σημαίνει ότι δεν χρειάζεται πλέον να περιηγείστε σε διαφορετικά τραγούδια για ώρες πριν ανεβάσετε ένα Reel. Ίσως χρειαστεί απλώς να γράψετε τον τύπο μουσικής που χρειάζεστε και το εργαλείο AI θα το δημιουργήσει. Ωστόσο, δεν είμαι σίγουρος πώς θα ένιωθαν οι καλλιτέχνες για αυτό.
Το AudioCraft εξακολουθεί να μην κυκλοφορεί σε καμία από τις πλατφόρμες κοινωνικών μέσων που ανήκουν στη Meta, αλλά ίσως είναι θέμα χρόνου να γίνει το εργαλείο AI απλώς ένα άλλο χαρακτηριστικό που μπορούμε να χρησιμοποιούμε καθημερινά. Προς το παρόν, η Meta κυκλοφορεί το AudioCraft ως κώδικα ανοιχτού κώδικα. Η εταιρεία λέει ότι ο στόχος είναι να επιτραπεί σε ερευνητές και επαγγελματίες να εκπαιδεύσουν τα δικά τους μοντέλα με τα δικά τους σύνολα δεδομένων και να βοηθήσουν στην προώθηση του τομέα του ήχου και της μουσικής που δημιουργείται από AI.
Το AudioCraft είναι μια συλλογή τριών μοντέλων: MusicGen, AudioGen και μια βελτιωμένη έκδοση του EnCodec. Το MusicGen είναι ένα μοντέλο παραγωγής ήχου που έχει σχεδιαστεί για τη δημιουργία μουσικής. Εκπαιδεύτηκε σε ένα μεγάλο σύνολο δεδομένων περίπου 400.000 ηχογραφήσεων μουσικής, συμπεριλαμβανομένων περιγραφών κειμένων και μεταδεδομένων, συνολικού ύψους 20.000 ωρών μουσικής ιδιοκτησίας της Meta ή άδειας για αυτόν τον συγκεκριμένο σκοπό.
Image Credit–Meta
Το AudioGen είναι ένα μοντέλο τεχνητής νοημοσύνης με δυνατότητα δημιουργίας κειμένου σε ήχο. Παρέχοντας μια γραπτή περιγραφή μιας ακουστικής σκηνής, το μοντέλο μπορεί να παράγει ρεαλιστικούς περιβαλλοντικούς ήχους που ταιριάζουν με την περιγραφή, με σύνθετο περιβάλλον σκηνής και ρεαλιστικές συνθήκες εγγραφής. Ο αποκωδικοποιητής EnCodec εξασφαλίζει παραγωγή μουσικής υψηλότερης ποιότητας με λιγότερα προβλήματα.
Σύμφωνα με το Meta, “
η υπεύθυνη καινοτομία δεν μπορεί να συμβεί μεμονωμένα
Ο τεχνολογικός γίγαντας λέει επίσης ότι τα σύνολα δεδομένων εκπαίδευσης των μοντέλων του στερούνται ποικιλομορφίας, ειδικά όσον αφορά τα στυλ μουσικής και τη γλώσσα. Με την κοινή χρήση του κώδικα για το AudioCraft, η Meta στοχεύει να επιτρέψει σε άλλους ερευνητές να δοκιμάσουν νέες μεθόδους για τη μείωση της μεροληψίας και της κακής χρήσης σε μοντέλα παραγωγής .
Ο τεχνολογικός γίγαντας μοιράζεται επίσης ότι είναι ενθουσιασμένος που βλέπει τα δημιουργικά αποτελέσματα που θα παράγουν οι άνθρωποι χρησιμοποιώντας τη μέθοδό του. Μπορείτε ήδη να ακούσετε εκατοντάδες δείγματα που δημιούργησε το εργαλείο τεχνητής νοημοσύνης, από ντίσκο της δεκαετίας του ’80 έως μουσικά όργανα της τζαζ έως, για παράδειγμα, έναν άνδρα που μιλάει με πολλούς ανθρώπους να ζητωκραυγάζουν στο παρασκήνιο.


