“Πάρτε αντιαρματικό πύραυλο όσο χρειάζεστε” — Οι ερευνητές της Amazon διαπιστώνουν ότι ο τεράστιος όγκος του ανοιχτού ιστού είναι απλώς παραγόμενος από τεχνητή νοημοσύνη, ανοησίες μεταφρασμένες από μηχανή
Ερευνητές στο εργαστήριο AI της Amazon Web
Services
(AWS) ανακάλυψαν ότι ένας μεγάλος όγκος διαδικτυακού περιεχομένου προέρχεται από πηγές μηχανικής μετάφρασης (MT).
Αυτό το περιεχόμενο, το οποίο μεταφράζεται σε πολλές διαφορετικές γλώσσες, είναι συχνά χαμηλής ποιότητας, κάτι
που
η ομάδα λέει ότι υπογραμμίζει την κρίσιμη ανάγκη για ποιότητα δεδομένων και συνεκτίμηση της πηγής κατά την εκπαίδευση μεγάλων γλωσσικών μοντέλων (LLM).
Οι ερευνητές διαπίστωσαν επίσης ότι το περιεχόμενο που δημιουργείται από μηχανή είναι συνηθισμένο στις μεταφράσεις για γλώσσες που έχουν λιγότερους πόρους και ότι αποτελεί σημαντικό μέρος όλου του περιεχομένου στον Ιστό.
Μεροληψία επιλογής
«Πραγματικά ενδιαφερθήκαμε για αυτό το θέμα επειδή αρκετοί συνάδελφοι που εργάζονται στο MT και είναι φυσικοί ομιλητές γλωσσών χαμηλών πόρων παρατήρησαν ότι μεγάλο μέρος του διαδικτύου στη μητρική τους γλώσσα φαίνεται να δημιουργείται MT», Mehak Dhaliwal, πρώην ασκούμενος εφαρμοσμένης επιστήμης στο AWS. και νυν διδάκτορας στο Πανεπιστήμιο της
Καλιφόρνια
, Σάντα Μπάρμπαρα, είπε
Μητρική πλακέτα
.
«Έτσι, η γνώση προήλθε πραγματικά από τους ομιλητές της γλώσσας με χαμηλούς πόρους και κάναμε τη μελέτη για να κατανοήσουμε καλύτερα το ζήτημα και να δούμε πόσο διαδεδομένο ήταν».
Η ομάδα ανέπτυξε έναν τεράστιο πόρο γνωστό ως Multi-Way ccMatrix (MWccMatrix) για να κατανοήσει καλύτερα τις δυνατότητες του περιεχομένου που μεταφράζεται από μηχανήματα. Αυτός ο πόρος περιέχει 6,4 δισεκατομμύρια μοναδικές προτάσεις σε 90 διαφορετικές γλώσσες και περιλαμβάνει μεταφραστικές πλειάδες, οι οποίες είναι σύνολα προτάσεων σε διάφορες γλώσσες που είναι μεταφράσεις η μία της άλλης.
Η μελέτη, η οποία υποβλήθηκε στο Πανεπιστήμιο του Κορνέλ
διακομιστή προεκτύπωσης arXiv
, διαπίστωσε ότι τεράστιες ποσότητες περιεχομένου ιστού μεταφράζονται συχνά σε πολλές γλώσσες, κυρίως με αυτόματη μετάφραση. Αυτό το περιεχόμενο δεν είναι μόνο διαδεδομένο σε μεταφράσεις σε γλώσσες με λιγότερους πόρους, αλλά αποτελεί επίσης σημαντικό μέρος όλου του περιεχομένου ιστού σε αυτές τις γλώσσες.
Οι ερευνητές παρατήρησαν επιπλέον μια μεροληψία επιλογής στο είδος του περιεχομένου που μεταφράζεται σε πολλές γλώσσες, πιθανότατα με σκοπό τη δημιουργία εσόδων από διαφημίσεις.
Η εργασία καταλήγει στο συμπέρασμα ότι «η τεχνολογία MT έχει βελτιωθεί δραματικά την τελευταία δεκαετία, αλλά εξακολουθεί να υπολείπεται της ανθρώπινης ποιότητας. Περιεχόμενο MT έχει προστεθεί στον Ιστό
εδώ
και πολλά χρόνια χρησιμοποιώντας συστήματα ΜΤ που ήταν διαθέσιμα εκείνη την εποχή, επομένως μεγάλο μέρος του MT στο διαδίκτυο είναι πιθανότατα πολύ χαμηλής ποιότητας σύμφωνα με τα σύγχρονα πρότυπα. Αυτό θα μπορούσε να δημιουργήσει λιγότερο άπταιστα μοντέλα LLM με περισσότερες παραισθήσεις και η μεροληψία επιλογής υποδεικνύει ότι τα δεδομένα μπορεί να είναι χαμηλότερης ποιότητας, ακόμη και πριν ληφθούν υπόψη τα σφάλματα MT. Η ποιότητα των δεδομένων είναι ζωτικής σημασίας στην εκπαίδευση LLM, όπου τα
σώμα
τα υψηλής ποιότητας, όπως τα βιβλία και τα άρθρα της Wikipedia, συνήθως αναδεικνύονται πολλές φορές.”
VIA:
TechRadar.com/

