Η εγγραφή ενός ηχητικού βιβλίου δεν είναι εύκολη υπόθεση, ακόμη και για
έμπειροι ηθοποιοί φωνής
. Αλλά
ζήτηση για ηχητικά βιβλία
βρίσκεται σε άνοδο και μεγάλες
πλατφόρμες
ροής όπως το
Spotify
δημιουργούν ειδικούς χώρους για να αναπτυχθούν. Για να συνδυάσουν την
καινοτομία
με τη φρενίτιδα, οι ερευνητές του MIT και της Microsoft χρησιμοποιούν την τεχνητή νοημοσύνη για να δημιουργήσουν ηχητικά βιβλία από διαδικτυακά κείμενα. Σε μια φιλόδοξη
νέο έργο
, συνεργάζονται με το Project Gutenberg, το παλαιότερο και πιθανώς μεγαλύτερο διαδικτυακό αποθετήριο ηλεκτρονικών βιβλίων ανοιχτής άδειας στον κόσμο, για να φτιάξουν 5.000 ηχητικά βιβλία με αφήγηση με τεχνητή νοημοσύνη. Αυτή η συλλογή περιλαμβάνει κλασικούς τίτλους στη λογοτεχνία όπως
Περηφάνεια και προκατάληψη
,
Μαντάμ Μποβαρύ
,
Κάλεσμα της φύσης
και
Η Αλίκη στη χώρα των θαυμάτων
. Η τριάδα δημοσιεύτηκε
μια προεκτύπωση arXiv
για τις προσπάθειές τους τον Σεπτέμβριο.
Το μαγικό συστατικό που το καθιστά δυνατό είναι ένας νευρικός αλγόριθμος μετατροπής κειμένου σε ομιλία, ο οποίος εκπαιδεύεται σε εκατομμύρια παραδείγματα ανθρώπινης ομιλίας και στη συνέχεια αναλαμβάνει να τον μιμηθεί. Μπορεί να δημιουργήσει διαφορετικές φωνές με διαφορετικές προφορές σε διαφορετικές γλώσσες και μπορεί να δημιουργήσει προσαρμοσμένες φωνές με μόνο πέντε δευτερόλεπτα ήχου. «Μπορούν να διαβάσουν οποιοδήποτε κείμενο τους δώσετε και μπορούν να το διαβάσουν απίστευτα γρήγορα», λέει ο Hamilton. «Μπορείτε να του δώσετε οκτώ ώρες κειμένου και θα γίνει σε λίγα λεπτά».
Είναι σημαντικό ότι αυτός ο αλγόριθμος μπορεί να καταλάβει τις λεπτές αποχρώσεις, όπως τους τόνους και τις τροποποιήσεις που προσθέτουν οι άνθρωποι όταν διαβάζουν λέξεις, όπως πώς διαβάζεται ένας αριθμός τηλεφώνου ή ένας ιστότοπος, τι ομαδοποιείται και πού βρίσκονται οι παύσεις. Ο αλγόριθμος βασίζεται
προηγούμενη εργασία
από ορισμένους από τους συν-συγγραφείς της εφημερίδας στη Microsoft.
Όπως τα μεγάλα γλωσσικά μοντέλα, αυτός ο αλγόριθμος βασίζεται σε
μεγάλο
βαθμό στη μηχανική μάθηση και στα νευρωνικά δίκτυα. “Είναι τα ίδια κότσια πυρήνα, αλλά διαφορετικές εισόδους και εξόδους”, εξηγεί ο Hamilton. Τα μεγάλα γλωσσικά μοντέλα λαμβάνουν κείμενο και συμπληρώνουν κενά. Χρησιμοποιούν αυτή τη βασική λειτουργία για τη δημιουργία εφαρμογών συνομιλίας. Οι νευρικοί αλγόριθμοι μετατροπής κειμένου σε ομιλία, από την άλλη πλευρά, λαμβάνουν κείμενο, τα αντλούν μέσω των ίδιων ειδών αλγορίθμων, αλλά τώρα αντί να φτύνουν κείμενο, εκπέμπουν ήχο, λέει ο Χάμιλτον.
[Related:
Internet
Archive just lost a federal lawsuit against big book publishers
]
“Προσπαθούν να δημιουργήσουν ήχους που είναι πιστοί στο κείμενο που βάζετε. Αυτό τους δίνει επίσης λίγο περιθώριο”, προσθέτει. «Μπορούν να φτύνουν το είδος του ήχου που αισθάνονται απαραίτητο για να λύσουν καλά την εργασία. Μπορούν να αλλάξουν, να ομαδοποιήσουν ή να αλλάξουν την προφορά για να ακούγεται πιο ανθρώπινο».
Ένα εργαλείο που ονομάζεται συνάρτηση απώλειας μπορεί στη συνέχεια να χρησιμοποιηθεί για να αξιολογήσει εάν ένα μοντέλο έκανε καλή δουλειά ή κακή δουλειά. Η εφαρμογή της τεχνητής νοημοσύνης με αυτόν τον τρόπο μπορεί να επιταχύνει τις προσπάθειες έργων όπως
Librivox
το οποίο επί του παρόντος χρησιμοποιεί εθελοντές ανθρώπους για τη δημιουργία ακουστικών βιβλίων έργων δημόσιου τομέα.
Η δουλειά απέχει πολύ από το να έχει γίνει. Τα επόμενα βήματα είναι η βελτίωση της ποιότητας. Δεδομένου ότι τα ηλεκτρονικά βιβλία του Project Gutenberg δημιουργούνται από
ανθρώπινοι εθελοντές
, κάθε άτομο που φτιάχνει το ebook το κάνει ελαφρώς διαφορετικά. Μπορεί να περιλαμβάνουν τυχαίο κείμενο σε απροσδόκητα μέρη και όπου οι κατασκευαστές ebook τοποθετούν αριθμούς σελίδων, ο πίνακας περιεχομένων ή οι εικόνες μπορεί να αλλάζουν από βιβλίο σε βιβλίο.
«Όλα αυτά τα διαφορετικά πράγματα καταλήγουν σε περίεργα τεχνουργήματα για ένα ηχητικό βιβλίο και πράγματα που δεν θα θέλατε να ακούσετε καθόλου», λέει ο Hamilton. «Το αστέρι του βορρά είναι να αναπτύσσει όλο και πιο ευέλικτες λύσεις που μπορούν να χρησιμοποιήσουν την καλή ανθρώπινη διαίσθηση για να καταλάβουν τι πρέπει να διαβάσουν και τι όχι σε αυτά τα βιβλία». Μόλις το καταφέρουν, ελπίζουν να το χρησιμοποιήσουν, μαζί με τις πιο πρόσφατες εξελίξεις στην τεχνολογία της γλώσσας AI για να κλιμακώσουν τη συλλογή ηχητικών βιβλίων σε όλες τις 60.000 στο Project Gutenberg, και ίσως ακόμη και να τα μεταφράσουν.
Προς το παρόν, όλα τα ηχητικά βιβλία με φωνή AI μπορούν να μεταδοθούν δωρεάν σε πλατφόρμες όπως π.χ
Spotify
,
Google Podcasts
,
Apple Podcast
και το
Αρχείο Διαδικτύου
.
Υπάρχει μια ποικιλία εφαρμογών για αυτόν τον τύπο αλγορίθμου. Μπορεί να διαβάζει έργα και να εκχωρεί ξεχωριστές φωνές σε κάθε χαρακτήρα. Μπορεί να κοροϊδέψει ένα ολόκληρο ηχητικό βιβλίο στη φωνή σας, κάτι που θα μπορούσε να αποτελέσει ένα υπέροχο δώρο. Ωστόσο, παρόλο που υπάρχουν πολλοί αρκετά αβλαβείς τρόποι χρήσης αυτής της τεχνολογίας, οι ειδικοί έχουν εκφράσει στο παρελθόν τις ανησυχίες τους σχετικά με τα μειονεκτήματα του τεχνητά παραγόμενου ήχου και την πιθανότητα κατάχρησής του.
Ακούστε το Call of the Wild παρακάτω.
