Ο αυτοματισμός AI εξακολουθεί να δημιουργεί προβλήματα προσβασιμότητας, ειδικά για τη μεταγραφή ήχου
Η περίπτωση της ανθρώπινης επίβλεψης της τεχνητής νοημοσύνης (
ΟΛΑ ΣΥΜΠΕΡΙΛΑΜΒΑΝΟΝΤΑΙ)
οι υπηρεσίες συνεχίζονται, με τον αλληλένδετο κόσμο του
ηχητική μεταγραφή, υπότιτλοι και αυτόματη αναγνώριση ομιλίας (ASR)
συμμετοχή στην πρόσκληση υποβολής αιτήσεων που συμπληρώνουν και δεν αντικαθιστούν την ανθρώπινη συμβολή.
Οι υπότιτλοι διαδραματίζουν ζωτικό ρόλο στην παροχή πρόσβασης σε μέσα και πληροφορίες σε θεατές που είναι κωφοί ή βαρήκοοι, και έχουν
αυξήθηκε σε λαϊκή χρήση
τα τελευταία χρόνια. Οι υποστηρικτές της αναπηρίας έχουν πιέσει για καλύτερες επιλογές υπότιτλων για
δεκαετίες
τονίζοντας μια ανάγκη που σχετίζεται όλο και περισσότερο με την εξάπλωση του
υπηρεσίες ροής κατά παραγγελία
. Οι πλατφόρμες που βασίζονται σε βίντεο έχουν κολλήσει γρήγορα και στο AI, με το YouTube να ανακοινώνει πρώιμες δοκιμές μιας νέας λειτουργίας τεχνητής νοημοσύνης που συνοψίζει ολόκληρα βίντεο και το TikTok να εξερευνά το δικό του chat bot.
Έτσι, με την αυξανόμενη τρέλα για την τεχνητή νοημοσύνη ως σημαδούρα για τους περιορισμούς της τεχνολογίας, η συμμετοχή των πιο πρόσφατων εργαλείων και υπηρεσιών τεχνητής νοημοσύνης στον αυτόματο υπότιτλο μπορεί να φαίνεται σαν ένα λογικό επόμενο βήμα.
ΔΕΙΤΕ ΕΠΙΣΗΣ:
Μπερδευτείτε για τη συγχώρεση ομοσπονδιακού φοιτητικού δανείου; Εδώ είναι τι πρέπει να ξέρετε.
3 Αναπαραγωγή πολυμέσων
μια εταιρεία υπηρεσιών προσβασιμότητας βίντεο και υποτίτλων, επικεντρώθηκε στον αντίκτυπο των εργαλείων δημιουργίας τεχνητής νοημοσύνης στους υπότιτλους που χρησιμοποιούνται κυρίως από θεατές που είναι κωφοί και βαρήκοοι στην πρόσφατα δημοσιευμένη
Έκθεση κατάστασης αυτόματης αναγνώρισης ομιλίας 2023
. Σύμφωνα με τα ευρήματα, οι χρήστες πρέπει να γνωρίζουν πολύ περισσότερα από την απλή ακρίβεια, όταν νέες, γρήγορα εξελισσόμενες υπηρεσίες τεχνητής νοημοσύνης ρίχνονται στο μείγμα.
Η ακρίβεια της αυτόματης αναγνώρισης ομιλίας
Η αναφορά του 3Play Media ανέλυσε το ποσοστό λάθους λέξεων (τον αριθμό των λέξεων που έχουν μεταγραφεί με ακρίβεια) και το ποσοστό μορφοποιημένου σφάλματος (την ακρίβεια των λέξεων και τη μορφοποίηση σε ένα απομαγνητοφωνημένο αρχείο) διαφορετικών μηχανών ASR ή γεννητριών λεζάντας που λειτουργούν με AI. Οι διάφοροι κινητήρες ASR ενσωματώνονται σε μια σειρά βιομηχανιών, συμπεριλαμβανομένων των ειδήσεων, της τριτοβάθμιας εκπαίδευσης και του αθλητισμού.
“Το ASR υψηλής ποιότητας δεν οδηγεί απαραίτητα σε υπότιτλους υψηλής ποιότητας”, αναφέρει η έκθεση. “Για το ποσοστό λάθους λέξης, ακόμη και οι καλύτεροι κινητήρες απέδιδαν μόνο περίπου 90 τοις εκατό με ακρίβεια και για το ποσοστό σφάλματος μορφοποιημένου, μόνο περίπου 80 τοις εκατό με ακρίβεια, κανένα από τα οποία δεν επαρκεί για νομική συμμόρφωση και 99 τοις εκατό ακρίβεια, το βιομηχανικό πρότυπο για προσβασιμότητα.”
ο
Νόμος για τους Αμερικανούς με Αναπηρίες (ADA)
απαιτεί από τις πολιτειακές και τοπικές κυβερνήσεις, τις επιχειρήσεις και τους μη κερδοσκοπικούς οργανισμούς που εξυπηρετούν το κοινό να “
επικοινωνούν αποτελεσματικά με άτομα που έχουν προβλήματα επικοινωνίας
,” συμπεριλαμβανομένου
υπότιτλους σε κλειστό ή σε πραγματικό χρόνο
υπηρεσίες για κωφά και βαρήκοα άτομα. Σύμφωνα με την Ομοσπονδιακή Επιτροπή Επικοινωνιών (FCC)
κανόνες συμμόρφωσης για την τηλεόραση
οι υπότιτλοι πρέπει να είναι ακριβείς, συγχρονισμένοι, συνεχείς και σωστά τοποθετημένοι στον “μέγιστο δυνατό βαθμό”.
Η ακρίβεια υποτίτλων σε όλο το σύνολο δεδομένων παρουσίαζε μεγάλες διακυμάνσεις σε διαφορετικές αγορές και περιπτώσεις χρήσης, επίσης. “Οι ειδήσεις και τα δίκτυα, τα κινηματογραφικά και τα αθλητικά είναι τα πιο δύσκολα για το ASR να μεταγραφεί με ακρίβεια”, γράφει η 3Play Media, “καθώς αυτές οι αγορές έχουν συχνά περιεχόμενο με μουσική υπόκρουση, επικαλυπτόμενη ομιλία και δύσκολο ήχο. Αυτές οι αγορές έχουν τα υψηλότερα μέσα ποσοστά σφαλμάτων για ποσοστό λάθους λέξης και ποσοστό μορφοποιημένου σφάλματος, με τις ειδήσεις και τα δίκτυα να είναι τα λιγότερο ακριβή.”
Ενώ, γενικά, οι επιδόσεις έχουν βελτιωθεί από την αναφορά του 2022 του 3Play Media, η εταιρεία διαπίστωσε ότι τα ποσοστά σφαλμάτων εξακολουθούσαν να είναι αρκετά υψηλά ώστε να δικαιολογούν τη συνεργασία ανθρώπινου συντάκτη για όλες τις αγορές που δοκιμάστηκαν.
Κρατώντας τους ανθρώπους σε επαφή
Τα μοντέλα μεταγραφής σε κάθε επίπεδο, από τον καταναλωτή έως τη χρήση του κλάδου, έχουν ενσωματώσει λεζάντες ήχου που δημιουργούνται από AI για χρόνια. Πολλοί χρησιμοποιούν ήδη αυτό που είναι γνωστό ως συστήματα “human-in-the-loop”, όπου μια διαδικασία πολλαπλών βημάτων ενσωματώνει τόσο εργαλεία ASR (ή AI) όσο και ανθρώπινους επεξεργαστές. Εταιρείες όπως η Rev, μια άλλη υπηρεσία υποτίτλων και μεταγραφής, έχουν επισημάνει το
σημασία των ανθρώπινων συντακτών
στον οπτικοακουστικό συγχρονισμό, τη μορφοποίηση οθόνης και άλλα απαραίτητα βήματα για την πλήρη πρόσβαση των οπτικών μέσων.
Το tweet μπορεί να έχει διαγραφεί
Τα μοντέλα Human-in-the-Loop (επίσης γνωστά ως HITL) έχουν προωθηθεί μέσω της γενετικής ανάπτυξης AI για καλύτερη παρακολούθηση
σιωπηρή προκατάληψη σε μοντέλα AI
και να καθοδηγήσει τη γενετική τεχνητή νοημοσύνη με ανθρωποκεντρική λήψη αποφάσεων.
Η Κοινοπραξία του Παγκόσμιου Ιστού (W3C).
Πρωτοβουλία για την προσβασιμότητα στον Ιστό
έχει διατηρήσει εδώ και καιρό τη θέση της και για την ανθρώπινη επίβλεψη, όπως σημειώνεται σε αυτήν
οδηγίες για υπότιτλους
. “Οι υπότιτλοι που δημιουργούνται αυτόματα δεν πληρούν τις ανάγκες των χρηστών ή τις απαιτήσεις προσβασιμότητας, εκτός εάν επιβεβαιωθεί ότι είναι πλήρως ακριβείς. Συνήθως χρειάζονται σημαντική επεξεργασία”, αναφέρουν οι οδηγίες του οργανισμού. “Οι αυτόματοι υπότιτλοι μπορούν να χρησιμοποιηθούν ως αφετηρία για την ανάπτυξη ακριβών λεζάντων και μεταγραφών.”
Και σε μια έκθεση του 2021 σχετικά με τη σημασία του
ζωντανές μεταγραφές που δημιουργούνται από τον άνθρωπο
Η 3Play Media σημείωσε παρόμοιους δισταγμούς.
“
Η τεχνητή νοημοσύνη δεν έχει την ίδια ικανότητα δημιουργίας συμφραζομένων
ως άνθρωπος, που σημαίνει ότι όταν η ASR παρεξηγεί μια λέξη, υπάρχει πιθανότητα να αντικατασταθεί με κάτι άσχετο ή να παραλειφθεί εντελώς”, γράφει η εταιρεία.
υπάρχοντες ομοσπονδιακοί και πολιτειακοί κανονισμοί υπότιτλων
για ηχογραφημένο περιεχόμενο αναφέρετε ότι τα προσβάσιμα καταλύματα πρέπει να παρέχουν
ίση εμπειρία
σε αυτό ενός ακούοντος θεατή… Ενώ
ούτε η τεχνητή νοημοσύνη ούτε οι υπότιτλοι μπορούν να παρέχουν 100% ακρίβεια
οι πιο αποτελεσματικές μέθοδοι ζωντανής υποτίτλων ενσωματώνουν και τις δύο για να πλησιάσουμε όσο το δυνατόν περισσότερο.”
Σημαία παραισθήσεις
Εκτός από τους αριθμούς χαμηλότερης ακρίβειας που χρησιμοποιούν μόνο το ASR, η αναφορά της 3Play Media επεσήμανε μια ρητή ανησυχία για την πιθανότητα
AI “ψευδαισθήσεις”,
τόσο με τη μορφή πραγματικών ανακρίβειων όσο και με τη συμπερίληψη εντελώς κατασκευασμένων ολόκληρων προτάσεων.
Ευρέως,
Παραισθήσεις που βασίζονται στο AI
έχουν γίνει κεντρική πτυχή ανάμεσα σε ένα οπλοστάσιο καταγγελιών κατά κειμένου που δημιουργείται από την τεχνητή νοημοσύνη.
ΔΕΙΤΕ ΕΠΙΣΗΣ:
Η εκπληκτικά ανθρώπινη φωνή του ChatGPT είχε ανθρώπινο κόστος
Τον Ιανουάριο, φύλακας παραπληροφόρησης
NewsGuard
δημοσίευσε α
μελέτη
σχετικά με την ευκολία του ChatGPT να δημιουργεί και να παρέχει παραπλανητικούς ισχυρισμούς σε χρήστες που παρουσιάζονται ως “κακοί ηθοποιοί”. Σημείωσε ότι το ρομπότ της τεχνητής νοημοσύνης μοιράστηκε παραπληροφόρηση σχετικά με ειδησεογραφικά γεγονότα 80 στις 100 φορές ως απάντηση σε προτροπές που σχετίζονται με δειγματοληψία ψευδών αφηγήσεων. Τον Ιούνιο, Αμερικανός ραδιοφωνικός παρουσιαστής
κατέθεσε μήνυση για συκοφαντική δυσφήμιση κατά του OpenAI
αφού το chatbot του, το ChatGPT, φέρεται να προσέφερε λανθασμένα “γεγονότα” σχετικά με τον κεντρικό υπολογιστή σε έναν χρήστη που αναζητούσε λεπτομέρειες σχετικά με μια υπόθεση ομοσπονδιακού δικαστηρίου.
Μόλις τον περασμένο μήνα, οι ηγέτες της τεχνητής νοημοσύνης (συμπεριλαμβανομένων των Amazon, Anthropic, Google, Inflection, Meta, Microsoft και OpenAI)
συναντήθηκε με την κυβέρνηση Μπάιντεν-Χάρις
“να βοηθήσουμε να προχωρήσουμε προς την ασφαλή, ασφαλή και διαφανή ανάπτυξη της τεχνολογίας AI” πριν από μια πιθανή εκτελεστική εντολή για υπεύθυνη χρήση AI. Όλες οι εταιρείες που παρευρέθηκαν υπέγραψαν μια σειρά από οκτώ δεσμεύσεις για τη διασφάλιση της δημόσιας ασφάλειας, ασφάλειας και εμπιστοσύνης.
Για την ενσωμάτωση της τεχνητής νοημοσύνης στην καθημερινή τεχνολογία — και συγκεκριμένα για προγραμματιστές που αναζητούν άλλες μορφές τεχνητής νοημοσύνης που δημιουργεί κείμενο ως στρωμένο μονοπάτι στην προσβασιμότητα — ανακρίβειες όπως οι παραισθήσεις αποτελούν εξίσου μεγάλο κίνδυνο για τους χρήστες, εξηγεί η 3Play Media.
«Από την άποψη της προσβασιμότητας, οι ψευδαισθήσεις παρουσιάζουν ένα ακόμη πιο σοβαρό πρόβλημα: την ψευδή απεικόνιση της ακρίβειας για κωφούς και βαρήκοους θεατές», εξηγεί η έκθεση. Το 3Play γράφει ότι, παρά την εντυπωσιακή απόδοση που σχετίζεται με την παραγωγή γραμματικών προτάσεων με καλά στίξη, ζητήματα όπως οι παραισθήσεις ενέχουν επί του παρόντος υψηλούς κινδύνους για τους χρήστες.
Οι ηγέτες του κλάδου προσπαθούν
αντιμετώπιση παραισθήσεων με συνεχή εκπαίδευση
και μερικοί από τους μεγαλύτερους ηγέτες της τεχνολογίας, όπως
Μπιλ Γκέϊτς
, είναι εξαιρετικά αισιόδοξοι. Αλλά όσοι χρειάζονται προσβάσιμες υπηρεσίες δεν έχουν χρόνο να περιμένουν τους προγραμματιστές να τελειοποιήσουν τα συστήματα AI τους.
«Αν και είναι πιθανό αυτές οι ψευδαισθήσεις να μειωθούν μέσω της τελειοποίησης, οι αρνητικές συνέπειες για την προσβασιμότητα θα μπορούσαν να είναι βαθιές», καταλήγει η έκθεση της 3Play Media. “Οι ανθρώπινοι συντάκτες παραμένουν απαραίτητοι για την παραγωγή υπότιτλων υψηλής ποιότητας προσβάσιμων στους κύριους τελικούς χρήστες μας: άτομα που είναι κωφά και βαρήκοα.”
Θέλετε περισσότερα S
κοινωνικό Καλό
και προσβασιμότητα
ιστορίες στα εισερχόμενά σας; Εγγραφείτε
Ενημερωτικό δελτίο Mashable’s Top Stories
σήμερα.


