Το νεότερο σύνολο δεδομένων της Meta θα εκπαιδεύει μηχανές αναγνώρισης ομιλίας σε «συστάδες» ηχείων

Είναι

και, συγγνώμη, η

κατά κάποιο τρόπο δεν το κατάλαβε. Παρά το τσουνάμι των εξελίξεων που έχουν απολαύσει τα συστήματα τεχνητής νοημοσύνης που δημιουργούνται τους τελευταίους μήνες, οι συνθετικοί βοηθοί στις κινητές συσκευές μας παραμένουν σχεδόν τόσο βαρήκοοι όσο ήταν το 2011. Ωστόσο, ένα πρόσφατα αναπτυγμένο σύνολο δεδομένων από το

AI υπόσχεται να βελτιώσει την απόδοση τέτοιων εργαλεία αυτόματης αναγνώρισης ομιλίας (ASR) ομαδοποιώντας την ομιλία σε «επίπεδο εκφώνησης».

Η Meta επιδιώκει εδώ και καιρό να βελτιώσει τις επιδόσεις των ASR της, διδάσκοντάς τους να εκπαιδεύονται χωρίς τη βοήθεια μεταγραφών, να αναγνωρίζουν περισσότερες από 4.000 ομιλούμενες γλώσσες και ακόμη και να διαβάζουν τα χείλη με υψηλότερη ικανότητα από τους ειδικούς. Ωστόσο, πολλά από τα σύνολα δεδομένων που χρησιμοποιούνται για την εκπαίδευση μοντέλων ASR οργανώνονται κατά δημογραφικά — ηλικιακή ομάδα, φύλο, εθνικότητα, αγγλική προφορά — που περιορίζουν την ποικιλία των προφορών στις οποίες εκπαιδεύονται τα μοντέλα, εμποδίζοντας τελικά τη λειτουργία τους στην κατανόηση μιας ευρείας διατομής χρηστών .


Για να το ξεπεράσει αυτό, η Meta AI έχει αναπτύξει ένα σύνολο δεδομένων που αντ’ αυτού βασίζεται σε μια μέθοδο ομαδοποίησης ομιλιών. «Αντί να διαιρούμε ένα σύνολο δεδομένων με βάση τις δημογραφικές πληροφορίες των ομιλητών… ο προτεινόμενος αλγόριθμός μας ομαδοποιεί την ομιλία σε επίπεδο εκφοράς», εξήγησε η ομάδα Meta AI στην ανάρτηση ιστολογίου της Τετάρτης. «Ένα μεμονωμένο σύμπλεγμα θα περιέχει παρόμοιες εκφράσεις από μια διαφορετική ομάδα ομιλητών. Στη συνέχεια, μπορούμε να εκπαιδεύσουμε το μοντέλο μας χρησιμοποιώντας τα διάφορα συμπλέγματα και να χρησιμοποιήσουμε σύνολα δεδομένων δικαιοσύνης για να μετρήσουμε πώς το μοντέλο επηρεάζει τα αποτελέσματα σε διαφορετικές δημογραφικές ομάδες.»

Το σύνολο δεδομένων του Meta που προκύπτει περιλαμβάνει λίγο περισσότερες από 27.000 εκφωνήσεις εντολών που συγκεντρώθηκαν από 595 αμειβόμενους εθελοντές στις ΗΠΑ. Οι δηλώσεις τους περιστρέφονται γύρω από επτά κύρια θέματα – μουσική, λήψη, βοηθητικά προγράμματα, έλεγχος ειδοποιήσεων, μηνύματα, κλήσεις και υπαγόρευση – που άλλοι ερευνητές μπορούν στη συνέχεια να χρησιμοποιήσουν για να εκπαιδεύσουν τα δικά τους μοντέλα και ψηφιακούς βοηθούς. Τα μηνύματα προτροπής περιλάμβαναν να ρωτήσετε τους ομιλητές πώς θα αναζητούσαν φωνητικά ένα τραγούδι ή θα έκαναν σχέδια με φίλους και θα αποφασίσουν πού θα συναντηθούν.

Για να αξιολογήσει αυτό το νέο σύστημα, η Meta εκπαίδευσε αρχικά ένα μοντέλο σε δημόσια διαθέσιμα, αγγλόφωνα βίντεο του

. Στη συνέχεια, οι ερευνητές αξιολόγησαν αυτό το μοντέλο χρησιμοποιώντας δύο άλλα σύνολα δεδομένων: Casual Conversations v1, το οποίο κυκλοφόρησε το Meta το 2021, και ένα “αποπροσδιορισμένο σύνολο δεδομένων που συλλέχθηκε από έναν προμηθευτή δεδομένων για ASR”, το οποίο περιλαμβάνει 48.000 ομιλίες από 867 άτομα.

Τα αρχικά αποτελέσματα αποδείχθηκαν ελπιδοφόρα, με βελτιώσεις απόδοσης μοντέλων «σε όλες τις δημογραφικές ομάδες στα σύνολα δεδομένων αξιολόγησής μας, αν και τα μεγαλύτερα κέρδη είναι μακράν σε σχέση με τη μεγαλύτερη περιεκτικότητα των προφορών», σύμφωνα με το ιστολόγιο. Συνολικά, η απόδοση ASR αυξήθηκε κατά 10 τοις εκατό χρησιμοποιώντας τη μέθοδο ομαδοποίησης, με μεγάλα κέρδη να προέρχονται και από το πλήθος ηλικίας 66-85 ετών, ένα δημογραφικό στοιχείο που παραδοσιακά υποεκπροσωπείται στον χώρο φωνητικών εντολών.

«Ο προτεινόμενος αλγόριθμός μας είναι μέρος της μακροπρόθεσμης εστίασης της Meta στην υπεύθυνη τεχνητή νοημοσύνη και μόνο ένα μέρος της ολιστικής μας προσέγγισης για την αντιμετώπιση ζητημάτων δικαιοσύνης», έγραψαν οι ερευνητές. Κοιτάζοντας το μέλλον, η ομάδα διερευνά την προσαρμογή του συστήματος σε άλλες γλώσσες.


Engadget.com



You might also like


Leave A Reply



Cancel Reply

Your email address will not be published.