Το AI2 αναπτύσσει ένα μεγάλο μοντέλο γλώσσας βελτιστοποιημένο για την επιστήμη

On

Μάι 11, 2023

Η επισκεψιμότητα υπερχείλισης στοίβας μειώνεται καθώς οι…

Το νέο Pixel 7A της Google έρχεται με δωρεάν ακουστικά και…

Απολύτως η καλύτερη κονσόλα ροής προϋπολογισμού που μπορείτε…

PalM 2. GPT-4. Η λίστα της τεχνητής νοημοσύνης που δημιουργεί κείμενο μεγαλώνει πρακτικά μέρα με τη μέρα.

Τα περισσότερα από αυτά τα μοντέλα είναι περιφραγμένα πίσω από API, καθιστώντας αδύνατο για τους ερευνητές να δουν ακριβώς τι τα κάνει να τσεκάρουν. Αλλά όλο και περισσότερο, οι προσπάθειες της κοινότητας αποδίδουν τεχνητή νοημοσύνη ανοιχτού κώδικα που είναι εξίσου εξελιγμένη, αν όχι περισσότερο, από τις εμπορικές αντίστοιχές τους.

Η τελευταία από αυτές τις προσπάθειες είναι το Open Language Model, ένα μεγάλο γλωσσικό μοντέλο που πρόκειται να κυκλοφορήσει από το μη κερδοσκοπικό Allen Institute for AI Research (AI2) κάποια στιγμή το 2024. Το Open Language Model, ή OLMo για συντομία, αναπτύσσεται σε συνεργασία με την AMD και την κοινοπραξία Large Unified Modern Infrastructure, η οποία παρέχει υπερυπολογιστική ισχύ για εκπαίδευση και εκπαίδευση, καθώς και Surge AI και MosaicML (που παρέχουν δεδομένα και κώδικα εκπαίδευσης).

«Οι κοινότητες έρευνας και τεχνολογίας χρειάζονται πρόσβαση σε ανοιχτά γλωσσικά μοντέλα για να προωθήσουν αυτή την επιστήμη», είπε η Hanna Hajishirzi, ανώτερη διευθύντρια έρευνας NLP στο AI2, στο TechCrunch σε μια συνέντευξη μέσω email. «Με το OLMo, εργαζόμαστε για να κλείσουμε το χάσμα μεταξύ δημόσιων και ιδιωτικών ερευνητικών δυνατοτήτων και γνώσεων, δημιουργώντας ένα ανταγωνιστικό γλωσσικό μοντέλο».

Θα μπορούσε κανείς να αναρωτηθεί — συμπεριλαμβανομένου αυτού του ρεπόρτερ — γιατί το AI2 ένιωσε την ανάγκη να αναπτύξει ένα μοντέλο ανοιχτής γλώσσας όταν υπάρχουν ήδη πολλά για να διαλέξετε (βλ.

ανθίζω

του Meta

Είδος μικρής καμήλας

, και τα λοιπά.). Ο τρόπος με τον οποίο το βλέπει ο Hajishirzi, ενώ οι εκδόσεις ανοιχτού κώδικα μέχρι σήμερα ήταν πολύτιμες και μάλιστα ώθησαν τα όρια, έχουν χάσει το σημάδι με διάφορους τρόπους.

Το AI2 βλέπει το OLMo ως μια πλατφόρμα, όχι απλώς ως μοντέλο — μια πλατφόρμα που θα επιτρέψει στην ερευνητική κοινότητα να λάβει κάθε στοιχείο που δημιουργεί το AI2 και είτε να το χρησιμοποιήσει ο ίδιος είτε να επιδιώξει να το βελτιώσει. Ό,τι κάνει το AI2 για το OLMo θα είναι ανοιχτά διαθέσιμο, λέει ο Hajishirzi, συμπεριλαμβανομένης μιας δημόσιας επίδειξης, συνόλου δεδομένων εκπαίδευσης και API, και θα τεκμηριωθεί με «πολύ περιορισμένες» εξαιρέσεις υπό «κατάλληλη» άδεια χρήσης.

«Χτίζουμε το OLMo για να δημιουργήσουμε μεγαλύτερη πρόσβαση για την ερευνητική κοινότητα της τεχνητής νοημοσύνης ώστε να εργάζεται απευθείας σε γλωσσικά μοντέλα», είπε ο Hajishirzi. «Πιστεύουμε ότι η ευρεία διαθεσιμότητα όλων των πτυχών του OLMo θα επιτρέψει στην ερευνητική κοινότητα να λάβει αυτό που δημιουργούμε και να εργαστεί για να το βελτιώσει. Ο απώτερος στόχος μας είναι να δημιουργήσουμε συνεργατικά το καλύτερο μοντέλο ανοιχτής γλώσσας στον κόσμο».

Ο άλλος παράγοντας διαφοροποίησης του OLMo, σύμφωνα με τον Noah Smith, ανώτερο διευθυντή της έρευνας NLP στο AI2, είναι η εστίαση στο να μπορέσει το μοντέλο να αξιοποιήσει και να κατανοήσει καλύτερα τα σχολικά βιβλία και τις ακαδημαϊκές εργασίες σε αντίθεση, ας πούμε, του κώδικα. Υπήρξαν και άλλες απόπειρες σε αυτό, όπως το περιβόητο του Meta

Galactica

μοντέλο. Αλλά ο Hajishirzi πιστεύει ότι η εργασία του AI2 στον ακαδημαϊκό χώρο και τα εργαλεία που έχει αναπτυχθεί για έρευνα, όπως το Semantic Scholar, θα βοηθήσουν να γίνει το OLMo «μοναδικά κατάλληλο» για επιστημονικές και ακαδημαϊκές εφαρμογές.

«Πιστεύουμε ότι το OLMo έχει τη δυνατότητα να είναι κάτι πραγματικά ξεχωριστό στον τομέα, ειδικά σε ένα τοπίο όπου πολλοί σπεύδουν να επωφεληθούν από το ενδιαφέρον τους για παραγωγικά μοντέλα AI», είπε ο Smith. «Η μοναδική ικανότητα του AI2 να ενεργεί ως εμπειρογνώμονες τρίτων μας δίνει την ευκαιρία να εργαστούμε όχι μόνο με τη δική μας παγκοσμίου φήμης τεχνογνωσία αλλά και με τα ισχυρότερα μυαλά του κλάδου. Ως αποτέλεσμα, πιστεύουμε ότι η αυστηρή, τεκμηριωμένη προσέγγισή μας θα θέσει τις βάσεις για την οικοδόμηση της επόμενης γενιάς ασφαλών, αποτελεσματικών τεχνολογιών τεχνητής νοημοσύνης».

Αυτό είναι ένα ωραίο συναίσθημα, σίγουρα. Τι γίνεται όμως με τα ακανθώδη ηθικά και νομικά ζητήματα σχετικά με την εκπαίδευση — και την απελευθέρωση — γενεσιουργού AI; Η συζήτηση μαίνεται γύρω από τα δικαιώματα των κατόχων περιεχομένου (μεταξύ άλλων ενδιαφερόμενων μερών που επηρεάζονται) και αμέτρητα ενοχλητικά ζητήματα δεν έχουν ακόμη διευθετηθεί στα δικαστήρια.

Για να κατευνάσει τις ανησυχίες, η ομάδα OLMo σχεδιάζει να συνεργαστεί με το νομικό τμήμα της AI2 και να καθοριστεί εξωτερικοί εμπειρογνώμονες, σταματώντας σε «σημεία ελέγχου» στη διαδικασία κατασκευής μοντέλων για να επανεκτιμήσει τα ζητήματα απορρήτου και δικαιωμάτων πνευματικής ιδιοκτησίας.

«Ελπίζουμε ότι μέσω ενός ανοιχτού και διαφανούς διαλόγου σχετικά με το μοντέλο και τη χρήση του για την οποία προορίζεται, μπορούμε να κατανοήσουμε καλύτερα πώς να μετριάζουμε την προκατάληψη, την τοξικότητα και να ρίξουμε φως σε εκκρεμή ερευνητικά ερωτήματα εντός της κοινότητας, καταλήγοντας τελικά σε ένα από τα ισχυρότερα διαθέσιμα μοντέλα », είπε ο Σμιθ.

Τι γίνεται με την πιθανότητα κακής χρήσης; Τα μοντέλα, τα οποία είναι συχνά τοξικά και προκατειλημμένα στην αρχή, είναι ώριμα για κακούς ηθοποιούς που σκοπεύουν να διαδώσουν παραπληροφόρηση και να δημιουργήσουν κακόβουλο κώδικα.

Ο Hajishirzi είπε ότι το AI2 θα χρησιμοποιήσει έναν συνδυασμό αδειοδότησης, σχεδίασης μοντέλων και επιλεκτικής πρόσβασης στα υποκείμενα στοιχεία για να «μεγιστοποιήσει τα επιστημονικά οφέλη με ταυτόχρονη μείωση του κινδύνου επιβλαβούς χρήσης». Για την καθοδήγηση της πολιτικής, η OLMo διαθέτει μια επιτροπή ελέγχου δεοντολογίας με εσωτερικούς και εξωτερικούς συμβούλους (η AI2 δεν θα έλεγε ποιος ακριβώς) που θα παρέχει ανατροφοδότηση σε όλη τη διαδικασία δημιουργίας μοντέλου.

Θα δούμε σε ποιο βαθμό αυτό κάνει τη διαφορά. Προς το παρόν, πολλά είναι στον αέρα — συμπεριλαμβανομένων των περισσότερων τεχνικών προδιαγραφών του μοντέλου. (Το AI2 αποκάλυψε ότι θα έχει περίπου 70 δισεκατομμύρια παραμέτρους, οι παράμετροι είναι τα μέρη του μοντέλου που αντλήθηκαν από ιστορικά δεδομένα εκπαίδευσης.) Η εκπαίδευση θα ξεκινήσει στον υπερυπολογιστή της LUMI στη Φινλανδία — τον ταχύτερο υπερυπολογιστή στην Ευρώπη, από τον Ιανουάριο — στο τους επόμενους μήνες.

Το AI2 προσκαλεί τους συνεργάτες να συμβάλουν — και να ασκήσουν κριτική — στη διαδικασία ανάπτυξης μοντέλων. Οι ενδιαφερόμενοι μπορούν να επικοινωνήσουν με τους διοργανωτές του έργου OLMo

εδώ

.

techcrunch.com