Το ανοιχτού κώδικα MusicGen AI της Meta χρησιμοποιεί κείμενο για να δημιουργήσει συνδυασμούς ειδών τραγουδιού
Η ερευνητική ομάδα Audiocraft της
Meta
μόλις κυκλοφόρησε
MusicGen
ένα μοντέλο γλώσσας βαθιάς εκμάθησης ανοιχτού κώδικα που μπορεί να δημιουργήσει νέα μουσική με βάση τα μηνύματα κειμένου και ακόμη και να ευθυγραμμιστεί με ένα υπάρχον τραγούδι,
Ο αποκωδικοποιητής
έχουν αναφερθεί. Μοιάζει πολύ με το
ChatGPT
για ήχο, που σας επιτρέπει να περιγράψετε το στυλ της μουσικής που θέλετε, να ρίξετε μια υπάρχουσα μελωδία (προαιρετικά) και μετά να κάνετε κλικ στο “Δημιουργία”. Μετά από αρκετό χρόνο (περίπου 160 δευτερόλεπτα στην περίπτωσή μου), βγάζει ένα σύντομο κομμάτι ολοκαίνουργιας μουσικής που βασίζεται στις προτροπές κειμένου και τη μελωδία σας.
Η επίδειξη στον ιστότοπο Hugging Face AI του
Facebook
σάς επιτρέπει να περιγράφετε τη μουσική σας, παρέχοντας μια χούφτα παραδείγματα όπως “ένα ποπ τραγούδι της δεκαετίας του ’80 με βαριά τύμπανα και συνθετικά μαξιλαράκια στο παρασκήνιο”. Στη συνέχεια, μπορείτε να “προϋποθέσετε” ότι σε ένα δεδομένο τραγούδι διαρκεί 30 δευτερόλεπτα, με τα χειριστήρια να επιτρέπουν την επιλογή ενός συγκεκριμένου τμήματος αυτού. Στη συνέχεια, απλά πατάτε Δημιουργία και αποδίδει ένα δείγμα υψηλής ποιότητας διάρκειας έως και 12 δευτερολέπτων.
Παρουσιάζουμε το MusicGen: Ένα απλό και ελεγχόμενο μοντέλο παραγωγής μουσικής. Το MusicGen μπορεί να προκληθεί τόσο από κείμενο όσο και από μελωδία.
Κυκλοφορούμε κώδικα (MIT) και μοντέλα (CC-BY NC) για ανοιχτή έρευνα, αναπαραγωγιμότητα και για τη μουσική κοινότητα:
https://t.co/OkYjL4xDN7
pic.twitter.com/h1l4LGzYgf
— Felix Kreuk (@FelixKreuk)
9 Ιουνίου 2023
Η ομάδα χρησιμοποίησε 20.000 ώρες άδειας μουσικής για εκπαίδευση, συμπεριλαμβανομένων 10.000 μουσικών κομματιών υψηλής ποιότητας από ένα εσωτερικό σύνολο δεδομένων, μαζί με κομμάτια Shutterstock και Pond5. Για να το κάνουν πιο γρήγορο, χρησιμοποίησαν το 32Khz EnCodec audio tokenizer της Meta για να δημιουργήσουν μικρότερα κομμάτια μουσικής που μπορούν να επεξεργαστούν παράλληλα. “Σε αντίθεση με τις υπάρχουσες μεθόδους όπως το MusicLM, το MusicGen δεν απαιτεί αυτοεποπτευόμενη σημασιολογική αναπαράσταση [and has] μόνο 50 βήματα αυτόματης παλινδρόμησης ανά δευτερόλεπτο ήχου», έγραψε ο μηχανικός ML του Hugging Face Ahsen Khaliq σε ένα
τιτίβισμα
.
Τον περασμένο μήνα, η
Google
κυκλοφόρησε μια παρόμοια γεννήτρια μουσικής που ονομάζεται MusicLM, αλλά το MusicGen φαίνεται να παράγει ελαφρώς καλύτερα αποτελέσματα. Σε μια σελίδα δείγματος, οι ερευνητές συγκρίνουν τα αποτελέσματα του MusicGen με το MusicLM και δύο άλλα μοντέλα, το Riffusion και το Musai, για να αποδείξουν αυτό το σημείο. Μπορεί να εκτελεστεί τοπικά (συνιστάται μια GPU με τουλάχιστον 16 GB μνήμης RAM) και διατίθεται σε τέσσερα μεγέθη μοντέλων, από μικρό (300 εκατομμύρια παράμετροι) έως μεγάλο (3,3 δισεκατομμύρια παράμετροι) — με το τελευταίο να έχει τις μεγαλύτερες δυνατότητες για παραγωγή σύνθετης μουσικής .
Όπως αναφέρθηκε, το MusicGen είναι ανοιχτού κώδικα και μπορεί να χρησιμοποιηθεί ακόμη και για τη δημιουργία εμπορικής μουσικής (το δοκίμασα με το “Ode to Joy” και πολλά προτεινόμενα είδη και τα αποτελέσματα παραπάνω ήταν… μικτά). Ωστόσο, είναι το πιο πρόσφατο παράδειγμα της εκπληκτικής ταχύτητας ανάπτυξης της τεχνητής νοημοσύνης το τελευταίο εξάμηνο, με τα μοντέλα βαθιάς μάθησης να απειλούν να κάνουν εισβολές σε ένα άλλο είδος.
Όλα τα προϊόντα που προτείνει η Engadget επιλέγονται από τη συντακτική μας ομάδα, ανεξάρτητα από τη μητρική μας εταιρεία. Ορισμένες από τις ιστορίες μας περιλαμβάνουν συνδέσμους συνεργατών. Εάν αγοράσετε κάτι μέσω ενός από αυτούς τους συνδέσμους, ενδέχεται να κερδίσουμε μια προμήθεια θυγατρικών. Όλες οι τιμές είναι σωστές τη στιγμή της δημοσίευσης.


