Το Gladia μετατρέπει οποιοδήποτε ήχο σε κείμενο σε σχεδόν πραγματικό χρόνο
Συναντώ
Γλαδιά
, μια γαλλική startup τεχνητής νοημοσύνης που θέλει να αλλάξει τον τρόπο με τον οποίο οι εταιρείες αλληλεπιδρούν με δεδομένα ήχου. Η εταιρεία αναπτύσσει μια διεπαφή προγραμματισμού εφαρμογών μεταγραφής ήχου (API) που μπορείτε να ενσωματώσετε με άλλα προϊόντα και υποτίθεται ότι λειτουργεί πολύ καλύτερα από αυτό που είναι διαθέσιμο εκεί έξω. Και αυτό το τεχνολογικό ίδρυμα ξεκλειδώνει νέες περιπτώσεις χρήσης γύρω από τον ήχο.
Εάν είστε εξοικειωμένοι με τα API μεταγραφής ήχου, γνωρίζετε ότι οι μεγάλοι πάροχοι cloud έχουν ήδη τα δικά τους API. Υπάρχει της
Google
API ομιλίας σε κείμενο
,
Μεταγραφή Amazon
της
Microsoft
Ομιλία σε κείμενο
κ.λπ. Λειτουργούν καλά, αλλά είναι ακριβά, αργά και δεν έχουν ένα σωρό χαρακτηριστικά.
Ο συνιδρυτής και διευθύνων σύμβουλος της Gladia, Jean-Louis Quéguiner, ο οποίος ήταν ο πρώην επικεφαλής της AI για το OVHcloud και συνίδρυσε την εταιρεία με τον Jonathan Soto, μου είπε για μερικούς από τους περιορισμούς με τα υπάρχοντα API. Σύμφωνα με τον ίδιο, υπάρχουν τρία σημεία πόνου με τα υπάρχοντα προϊόντα. Πρώτον, όσον αφορά τις τιμές, η μεταγραφή μιας ώρας ήχου κοστίζει γενικά 1,50 έως 2 $ την ώρα.
Δεύτερον, η έξοδος δεν είναι πάντα πολύ αξιόπιστη καθώς ορισμένες γλώσσες λειτουργούν καλά ενώ άλλες ελάχιστα υποστηρίζονται. Όταν πρόκειται για προηγμένες λειτουργίες, εάν οι άνθρωποι μιλούν σε πολλές γλώσσες, το πιθανότερο είναι ότι το API απλά δεν θα μπορεί να παρατηρήσει την αλλαγή της γλώσσας και να μεταγράψει τον ήχο σε περισσότερες από μία γλώσσες.
Τρίτον, τα API μεταγραφής είναι αργά. Μπορεί να χρειαστούν περισσότερα από 15 λεπτά για τη μεταγραφή μιας ώρας ήχου. Αυτό είναι εντάξει εάν δεν χρειάζεστε μεταγραφές αμέσως, αλλά σημαίνει ότι δεν θα μπορείτε να χρησιμοποιήσετε αυτά τα API σε ορισμένους κλάδους.
Whisper’s whisperer
Η Gladia βασίζεται σε
Ψίθυρος
, το μοντέλο μεταγραφής ανοιχτού κώδικα του OpenAI. «Ξεκινήσαμε από το Whisper. Δεν έχουμε ξαναεφεύρει τον τροχό, αλλά ακούσαμε τους πελάτες μας και μας είπαν: «Αυτό που θέλω είναι κάτι που λειτουργεί τόσο καλά όσο το Whisper», μου είπε ο Jean-Louis Quéguiner.
Αλλά το Whisper δεν είναι τέλειο. Η έκδοση βανίλιας είναι ακόμα αρκετά αργή, επομένως η Gladia έχει αφιερώσει πολύ χρόνο μετατρέποντας το Whisper σε ένα γρήγορο και ανταποκρινόμενο μοντέλο μεταγραφής. Δεν είναι μόνο αυτό το θέμα.
«Το μισό του Whisper είναι το GPT-2. Έχετε δει LLM και
ChatGPT
, τείνει να έχει παραισθήσεις. Έχουμε κάνει πολλή δουλειά για να αποφύγουμε επίσης προβλήματα παραισθήσεων», είπε ο Quéguiner.
Συγκεκριμένα, μου είπε ότι ο Whisper έχει εκπαιδευτεί σε κλειστές λεζάντες που μπορείτε να βρείτε στο διαδίκτυο, όπως στο YouTube. Το μοντέλο του OpenAI τείνει να ακούει κοινές φράσεις που μπορείτε να ακούσετε σε διαδικτυακά βίντεο, όπως “αν σας άρεσε αυτό το βίντεο, κάντε like και εγγραφή”. Υπάρχει μια μαθηματική υπεραναπαράσταση ορισμένων προτάσεων όπως αυτή και η Gladia προσπαθεί να διορθώσει αυτές τις ελλείψεις.
Εκτός από αυτές τις τροποποιήσεις στο Whisper και την υλοποίησή του, η Gladia διαθέτει επίσης μερικούς αλγόριθμους προεπεξεργασίας και μετα-επεξεργασίας που βελτιώνουν τα τελικά αποτελέσματα.
Η Gladia υπόσχεται ότι μπορεί να μεταγράψει μια ώρα ήχου για 0,61 $. Και η διαδικασία μεταγραφής διαρκεί περίπου 60 δευτερόλεπτα. Το API του μπορεί να ανιχνεύει πότε υπάρχουν πολλοί ομιλητές, να προσθέτει χρονικές σημάνσεις, να ανιχνεύει γλώσσες και να αλλάζει από τη μια γλώσσα στην άλλη, εάν χρειάζεται. Το Gladia προσθέτει επίσης αυτόματα σημεία στίξης και πεζά.
Όπως τα περισσότερα API, το τελικό αποτέλεσμα είναι σε μορφή JSON. Αλλά η Gladia υποστηρίζει επίσης αρχεία SRT και VTT για εταιρείες που θέλουν να δημιουργήσουν υπότιτλους.
Δημιούργησα έναν λογαριασμό και ανέβασα μια ηχογράφηση μιας συνέντευξης για να δω πώς λειτουργεί το Gladia. Χρειάστηκε λίγο περισσότερος χρόνος από τον αναμενόμενο, αλλά ήταν σίγουρα πολύ πιο γρήγορος από τα API ομιλίας σε κείμενο της Google ή της Azure.
Το αποτέλεσμα δεν ήταν άψογο, αλλά ήταν εξαιρετικά καλό — κατανοούσε αρκτικόλεξα και τεχνικούς όρους. Άνοιξα το ίδιο αρχείο ήχου
Aiko
, μια εφαρμογή Mac που αναπτύχθηκε από τον Sindre Sorhus και σας επιτρέπει να μεταγράψετε αρχεία ήχου τοπικά χρησιμοποιώντας το Whisper. Όπως αναμενόταν, η έξοδος ήταν κοντά στην έξοδο της Gladia — αλλά η Gladia ήταν πολύ πιο γρήγορη από την εκτέλεση του Aiko στο MacBook Pro μου.
Συνολικά, το Gladia ήταν το καλύτερο API μεταγραφής που έχω χρησιμοποιήσει ποτέ.
Να γίνει ένα API νοημοσύνης ήχου
Επί του παρόντος, η εταιρεία συνεργάζεται με εταιρείες τηλεφωνικών κέντρων, υπηρεσίες εικονικών συσκέψεων και εκδότες βίντεο, μεταξύ των οποίων
Παλαμάκια
,
Ζωοθύελλα
και
Selectra
.
Η Gladia συγκέντρωσε έναν γύρο 4 εκατομμυρίων δολαρίων σε έναν γύρο χρηματοδότησης με επικεφαλής τον
Νέο κύμα
. Άλλοι επενδυτές περιλαμβάνουν Sequoia, Cocoa και επιχειρηματικούς άγγελους, όπως ο Solomon Hykes, ο Pierre Betouin, ο Miroslaw Klaba και ο Alexandre Berriche.
Η κατοχή ενός σταθερού API μεταγραφής είναι το πρώτο βήμα για την Gladia. Η εταιρεία ελπίζει ότι στη συνέχεια θα μπορέσει να δημιουργήσει χαρακτηριστικά πάνω από αυτό το ισχυρό τεχνικό θεμέλιο.
Για παράδειγμα, μετά τη μεταγραφή ενός αρχείου ήχου, η Gladia μπορεί να μεταφράσει κείμενο σε άλλη γλώσσα. Σε συνδυασμό με χρονικές σημάνσεις σε επίπεδο λέξης, σημαίνει ότι μια εταιρεία μπορεί να ανεβάσει ένα αρχείο ήχου και να λάβει υπότιτλους σε δεκάδες γλώσσες μέσα σε λίγα μόνο λεπτά.
Στο μέλλον, η εταιρεία ελπίζει ότι θα μπορεί να συνοψίσει το περιεχόμενο ενός αρχείου ήχου, να κατηγοριοποιήσει το περιεχόμενο σε πολλές κατηγορίες θεμάτων, να δημιουργήσει αυτόματα κεφάλαια, να πραγματοποιήσει ανάλυση συναισθημάτων και πολλά άλλα.
«Το μακροπρόθεσμο όραμά μας είναι να περάσουμε από τα δεδομένα 2D σε 3D. Ο ήχος είναι αρκετά επίπεδος και η ιδέα είναι να τον ενισχύσουμε με ευφυΐα», είπε ο Quéguiner. «Πιστεύουμε ότι η μεταγραφή θα γίνει εμπόρευμα. Αλλά πιστεύουμε ότι αυτό που θα έχει μεγαλύτερη σημασία είναι οι επιλογές που θα προσθέσουμε».


