Το AI2 απορρίπτει το μεγαλύτερο ανοιχτό σύνολο δεδομένων που έχει ακόμη για εκπαίδευση μοντέλων γλώσσας

By

Marizas Dimitris

On

Αυγ 19, 2023

Τα μοντέλα γλώσσας όπως το

GPT-4

και ο Claude είναι ισχυρά και χρήσιμα, αλλά τα δεδομένα στα οποία εκπαιδεύονται είναι ένα μυσ

τι

κό.

Το

Allen Institute for AI (AI2) στοχεύει να αντιστρέψει αυτήν την τάση με ένα νέο, τεράστιο σύνολο δεδομένων κειμένου που είναι δωρεάν για χρήση και επιθεώρηση.

Το Dolma, όπως ονομάζεται το σύνολο δεδομένων, προορίζεται να αποτελέσει τη βάση για το σχεδιασμένο μοντέλο ανοιχτής γλώσσας της ερευνητικής ομάδας, ή OLMo (το Dolma είναι συντομογραφία του «Data to feed OLMo’s Appetite). Καθώς το μοντέλο προορίζεται να είναι ελεύθερο στη χρήση και την τροποποίηση από την ερευνητική κοινότητα της τεχνητής νοημοσύνης, έτσι (υποστηρίξτε οι ερευνητές του AI2) θα πρέπει να είναι το σύνολο δεδομένων που χρησιμοποιούν για να το δημιουργήσουν.

Αυτό είναι το πρώτο «τεχνούργημα δεδομένων» που καθιστά διαθέσιμο το AI2 σχετικά με το OLMo και

σε μια ανάρτηση ιστολογίου

, ο Luca Soldaini του οργανισμού εξηγεί την επιλογή των πηγών και το σκεπτικό πίσω από διάφορες διαδικασίες που χρησιμοποίησε η ομάδα για να το καταστήσει εύγευστο για κατανάλωση τεχνητής νοημοσύνης. («Ένα πιο ολοκληρωμένο έγγραφο βρίσκεται στα σκαριά», σημειώνουν στην αρχή.)

Παρόλο που εταιρείες όπως το

OpenAI

και το Meta δημοσιεύουν ορισμένα από τα ζωτικής σημασίας στατιστικά στοιχεία των συνόλων δεδομένων που χρησιμοποιούν για να δημιουργήσουν τα γλωσσικά τους μοντέλα, πολλές από αυτές τις πληροφορίες αντιμετωπίζονται ως αποκλειστικές. Εκτός από τη γνωστή συνέπεια του αποθαρρυντικού ελέγχου και της βελτίωσης γενικά, υπάρχει η εικασία ότι ίσως αυτή η κλειστή προσέγγιση οφείλεται στο ότι τα δεδομένα δεν λαμβάνονται ηθικά ή νομικά: για παράδειγμα, ότι καταπίνονται πειρατικά αντίγραφα βιβλίων πολλών συγγραφέων.

Μπορείτε να δείτε σε αυτό το γράφημα που δημιουργήθηκε από το AI2 ότι τα μεγαλύτερα και πιο πρόσφατα μοντέλα παρέχουν μόνο μερικές από τις πληροφορίες που ένας ερευνητής πιθανότατα θα ήθελε να μάθει για ένα δεδομένο σύνολο δεδομένων. Ποιες πληροφορίες αφαιρέθηκαν και γιατί; Τι θεωρήθηκε κείμενο υψηλής έναντι χαμηλής ποιότητας; Τα προσωπικά στοιχεία αποκόπηκαν κατάλληλα;

Διάγραμμα που δείχνει το άνοιγμα ή την έλλειψη διαφορετικών συνόλων δεδομένων.

Φυσικά, είναι προνόμιο αυτών των εταιρειών, στο πλαίσιο ενός έντονα ανταγωνιστικού τοπίου AI, να φυλάσσουν τα μυστικά των διαδικασιών εκπαίδευσης των μοντέλων τους. Αλλά για ερευνητές εκτός των εταιρειών, καθιστά αυτά τα σύνολα δεδομένων και τα μοντέλα πιο αδιαφανή και δύσκολο να μελετηθούν ή να αναπαραχθούν.

Το Dolma του AI2 προορίζεται να είναι το αντίθετο από αυτά, με όλες τις πηγές και τις διαδικασίες του – ας πούμε, πώς και γιατί περικόπηκε σε πρωτότυπα κείμενα στην αγγλική γλώσσα – τεκμηριωμένες δημόσια.

Δεν είναι το πρώτο που δοκιμάζει το ανοιχτό σύνολο δεδομένων, αλλά είναι το μεγαλύτερο μακράν (3 δισεκατομμύρια μάρκες, ένα εγγενές μέτρο του όγκου περιεχομένου του AI) και, ισχυρίζονται, το πιο απλό όσον αφορά τη χρήση και τις άδειες. Χρησιμοποιεί την άδεια “ImpACT για τεχνουργήματα μεσαίου κινδύνου”,

για το οποίο μπορείτε να δείτε λεπτομέρειες εδώ

. Αλλά ουσιαστικά απαιτεί από τους υποψήφιους χρήστες του Dolma να:

Δώστε στοιχεία επικοινωνίας και περιπτώσεις χρήσης για την οποία προορίζονται
Αποκαλύψτε τυχόν δημιουργίες που προέρχονται από ντόλμα
Διανείμετε αυτά τα παράγωγα με την ίδια άδεια
Συμφωνήστε να μην εφαρμόσετε Ντόλμα σε διάφορες απαγορευμένες περιοχές, όπως παρακολούθηση ή παραπληροφόρηση

Για όσους ανησυχούν ότι παρά τις καλύτερες προσπάθειες του AI2, κάποια προσωπικά τους δεδομένα μπορεί να έχουν μπει στη βάση δεδομένων, υπάρχει μια φόρμα αιτήματος κατάργησης διαθέσιμη εδώ. Είναι για συγκεκριμένες περιπτώσεις, όχι απλώς ένα γενικό «μην με χρησιμοποιείς».

Αν όλα αυτά σου φαίνονται καλά,

Η πρόσβαση στο Ντόλμα είναι διαθέσιμη μέσω του Hugging Face

.

techcrunch.com

Παρόμοια άρθρα