Το OpenAI θέλει να συνεργαστεί με οργανισμούς για να δημιουργήσει νέα σύνολα δεδομένων εκπαίδευσης AI
Είναι ανοιχτό μυστικό ότι τα σύνολα δεδομένων που χρησιμοποιούνται για την
εκπαίδευση
μοντέλων τεχνητής νοημοσύνης είναι βαθιά ελαττωματικά.
Σώμα εικόνας
τείνει
να είναι με επίκεντρο τις ΗΠΑ και τη Δύση, εν μέρει επειδή οι δυτικές εικόνες κυριαρχούσαν στο Διαδίκτυο όταν συγκεντρώθηκαν τα σύνολα δεδομένων. Και όπως τονίστηκε πιο πρόσφατα από μια μελέτη από το Ινστιτούτο Allen για την
τεχνητή νοημοσύνη
, τα δεδομένα που χρησιμοποιούνται για την εκπαίδευση μεγάλων γλωσσικών μοντέλων όπως το Llama 2 του Meta περιέχουν τοξική γλώσσα και προκαταλήψεις.
Τα μοντέλα ενισχύουν αυτά τα ελαττώματα με επιβλαβείς τρόπους. Τώρα, η OpenAI λέει ότι θέλει να τις καταπολεμήσει συνεργαζόμενη με εξωτερικούς θεσμούς για τη δημιουργία νέων, ελπίζουμε βελτιωμένων συνόλων δεδομένων.
Το OpenAI ανακοίνωσε σήμερα το Data Partnerships, μια προσπάθεια συνεργασίας με τρίτους οργανισμούς για τη δημιουργία δημόσιων και ιδιωτικών συνόλων δεδομένων για εκπαίδευση μοντέλων AI. Σε ένα
ανάρτηση
το OpenAI λέει ότι το Data Partnerships έχει σκοπό να «επιτρέψει σε περισσότερους οργανισμούς να βοηθήσουν να κατευθύνουν το
μέλλον
της AI» και «να επωφεληθούν από μοντέλα που είναι πιο χρήσιμα».
«Για να φτιάξω τελικά [AI] που είναι ασφαλές και ωφέλιμο για όλη την ανθρωπότητα, θα θέλαμε τα μοντέλα τεχνητής νοημοσύνης να κατανοούν βαθιά όλα τα θέματα, τις βιομηχανίες, τους πολιτισμούς και τις γλώσσες, κάτι που απαιτεί όσο το δυνατόν ευρύτερο σύνολο δεδομένων εκπαίδευσης», γράφει το OpenAI. “Η συμπερίληψη του περιεχομένου σας μπορεί να κάνει τα μοντέλα AI πιο χρήσιμα για εσάς, αυξάνοντας την κατανόησή τους για τον τομέα σας.”
Ως μέρος του προγράμματος Data Partnerships, το OpenAI λέει ότι θα συλλέξει σύνολα δεδομένων «μεγάλης κλίμακας» που «αντανακλούν την ανθρώπινη κοινωνία» και τα οποία δεν είναι εύκολα προσβάσιμα στο διαδίκτυο σήμερα. Ενώ η εταιρεία σχεδιάζει να εργαστεί σε ένα ευρύ φάσμα τρόπων, συμπεριλαμβανομένων εικόνων, ήχου και βίντεο, αναζητά ιδιαίτερα δεδομένα που «εκφράζουν την ανθρώπινη πρόθεση» (π.χ. μακροσκελής γραφή ή συνομιλίες) σε διαφορετικές γλώσσες, θέματα και μορφές.
Η OpenAI λέει ότι θα συνεργαστεί με οργανισμούς για την ψηφιοποίηση των δεδομένων εκπαίδευσης εάν είναι απαραίτητο, χρησιμοποιώντας έναν συνδυασμό οπτικής αναγνώρισης χαρακτήρων και εργαλείων αυτόματης αναγνώρισης ομιλίας και αφαιρώντας ευαίσθητες ή προσωπικές πληροφορίες εάν είναι απαραίτητο.
Στην αρχή, το OpenAI επιδιώκει να δημιουργήσει δύο τύπους συνόλων δεδομένων: ένα σύνολο δεδομένων ανοιχτού κώδικα που θα ήταν δημόσιο για οποιονδήποτε να χρησιμοποιήσει στην εκπαίδευση μοντέλων τεχνητής νοημοσύνης και ένα σύνολο ιδιωτικών συνόλων δεδομένων για την εκπαίδευση ιδιόκτητων μοντέλων AI. Τα ιδιωτικά σύνολα προορίζονται για οργανισμούς που επιθυμούν να διατηρήσουν τα δεδομένα τους ιδιωτικά, αλλά θέλουν τα μοντέλα του OpenAI να κατανοούν καλύτερα τον τομέα τους, λέει η OpenAI. μέχρι στιγμής, το OpenAI συνεργάστηκε με την ισλανδική κυβέρνηση και τη Miðeind ehf για να βελτιώσει την ικανότητα του
GPT-4
να μιλάει ισλανδικά και με το Free Law Project για να βελτιώσει την κατανόηση των νομικών εγγράφων από τα μοντέλα του.
«Συνολικά, αναζητούμε συνεργάτες που θέλουν να μας βοηθήσουν να διδάξουμε την τεχνητή νοημοσύνη να κατανοούμε τον κόσμο μας προκειμένου να είμαστε όσο το δυνατόν πιο εξυπηρετικοί σε όλους», γράφει το OpenAI.
Άρα, μπορεί το OpenAI να τα καταφέρει καλύτερα από τις πολλές προσπάθειες δημιουργίας συνόλων δεδομένων που έχουν προηγηθεί; Δεν είμαι τόσο σίγουρος — η ελαχιστοποίηση της μεροληψίας συνόλου δεδομένων είναι ένα πρόβλημα
αυτό έχει παραξενέψει πολλούς από τους ειδικούς του κόσμου
. Τουλάχιστον, ελπίζω ότι η εταιρεία θα είναι διαφανής σχετικά με τη διαδικασία — και τις προκλήσεις που αναπόφευκτα αντιμετωπίζει κατά τη δημιουργία αυτών των συνόλων δεδομένων.
Παρά τη μεγαλειώδη γλώσσα της ανάρτησης ιστολογίου, φαίνεται επίσης να υπάρχει ένα σαφές εμπορικό κίνητρο, εδώ, για τη βελτίωση της απόδοσης των μοντέλων του OpenAI σε
βάρος
άλλων – και χωρίς αποζημίωση για τους κατόχους δεδομένων. Υποθέτω ότι αυτό είναι μέσα στα δικαιώματα του OpenAI. Αλλά φαίνεται λίγο κωφός υπό το φως των ανοιχτών επιστολών και των μηνύσεων από δημιουργικούς που ισχυρίζονται ότι το OpenAI εκπαίδευσε πολλά από τα μοντέλα του στη δουλειά τους χωρίς την άδεια ή την πληρωμή τους.
VIA:
techcrunch.com
