Το νέο εργαλείο του OpenAI επιχειρεί να εξηγήσει τις συμπεριφορές των γλωσσικών μοντέλων
Related Posts
Λέγεται συχνά ότι τα μεγάλα γλωσσικά μοντέλα (LLM) σύμφωνα με το ChatGPT του OpenAI είναι ένα μαύρο κουτί, και σίγουρα, υπάρχει κάποια αλήθεια σε αυτό. Ακόμη και για τους επιστήμονες δεδομένων, είναι δύσκολο να γνωρίζουν γιατί, πάντα, ένα μοντέλο ανταποκρίνεται με τον τρόπο που ανταποκρίνεται, όπως η εφεύρεση γεγονότων από ολόκληρο το ύφασμα.
Σε μια προσπάθεια να ξεφλουδίσει τα στρώματα των LLM, το OpenAI αναπτύσσει ένα εργαλείο για να προσδιορίζει αυτόματα ποια μέρη ενός LLM είναι υπεύθυνα για ποιες από τις συμπεριφορές του. Οι μηχανικοί πίσω από αυτό τονίζουν ότι βρίσκεται στα πρώτα στάδια, αλλά ο κώδικας για την εκτέλεση του είναι διαθέσιμος σε ανοιχτό κώδικα στο GitHub από σήμερα το πρωί.
«Προσπαθούμε [develop ways to] προβλέψτε ποια θα είναι τα προβλήματα με ένα σύστημα AI», είπε ο William Saunders, ο διευθυντής της ομάδας ερμηνείας στο OpenAI, στο TechCrunch σε μια τηλεφωνική συνέντευξη. «Θέλουμε να είμαστε πραγματικά σε θέση να γνωρίζουμε ότι μπορούμε να εμπιστευτούμε αυτό που κάνει το μοντέλο και την απάντηση που παράγει».
Για το σκοπό αυτό, το εργαλείο του OpenAI χρησιμοποιεί ένα μοντέλο γλώσσας (ειρωνικά) για να υπολογίσει τις λειτουργίες των στοιχείων άλλων, αρχιτεκτονικά απλούστερων LLMs — συγκεκριμένα του GPT-2 του OpenAI.
Το εργαλείο του OpenAI επιχειρεί να προσομοιώσει τις συμπεριφορές των νευρώνων σε ένα LLM.
Πως? Πρώτον, μια γρήγορη επεξήγηση για τα LLM για το υπόβαθρο. Όπως ο εγκέφαλος, αποτελούνται από «νευρώνες», οι οποίοι παρατηρούν κάποιο συγκεκριμένο μοτίβο στο κείμενο για να επηρεάσουν το τι «λέει» στη συνέχεια το συνολικό μοντέλο. Για παράδειγμα, εάν δοθεί μια προτροπή για υπερήρωες (π.χ. «Ποιοι υπερήρωες έχουν τις πιο χρήσιμες υπερδυνάμεις;»), ένας «νευρώνας υπερήρωων της Marvel» μπορεί να αυξήσει την πιθανότητα το μοντέλο να ονομάσει συγκεκριμένους υπερήρωες από ταινίες της Marvel.
Το εργαλείο του OpenAI εκμεταλλεύεται αυτή τη ρύθμιση για να χωρίσει τα μοντέλα σε μεμονωμένα κομμάτια. Πρώτον, το εργαλείο εκτελεί ακολουθίες κειμένου μέσω του μοντέλου που αξιολογείται και περιμένει για περιπτώσεις όπου ένας συγκεκριμένος νευρώνας «ενεργοποιείται» συχνά. Στη συνέχεια, “δείχνει” το GPT-4, το τελευταίο μοντέλο τεχνητής νοημοσύνης του OpenAI που δημιουργεί κείμενο, αυτούς τους εξαιρετικά ενεργούς νευρώνες και το GPT-4 δημιουργεί μια εξήγηση. Για να προσδιορίσει πόσο ακριβής είναι η εξήγηση, το εργαλείο παρέχει στο GPT-4 ακολουθίες κειμένου και το βάζει να προβλέψει ή να προσομοιώσει πώς θα συμπεριφερόταν ο νευρώνας. Στη συνέχεια συγκρίνει τη συμπεριφορά του προσομοιωμένου νευρώνα με τη συμπεριφορά του πραγματικού νευρώνα.
«Χρησιμοποιώντας αυτή τη μεθοδολογία, μπορούμε βασικά, για κάθε νευρώνα, να καταλήξουμε σε κάποιο είδος προκαταρκτικής φυσικής γλωσσικής εξήγησης για το τι κάνει και επίσης να έχουμε μια βαθμολογία για το πόσο καλά ταιριάζει αυτή η εξήγηση με την πραγματική συμπεριφορά», δήλωσε ο Jeff Wu, επικεφαλής είπε η κλιμακούμενη ομάδα ευθυγράμμισης στο OpenAI. «Χρησιμοποιούμε το GPT-4 ως μέρος της διαδικασίας για να παράγουμε εξηγήσεις για το τι αναζητά ένας νευρώνας και στη συνέχεια να βαθμολογήσουμε πόσο καλά αυτές οι εξηγήσεις ταιριάζουν με την πραγματικότητα αυτού που κάνει».
Οι ερευνητές μπόρεσαν να δημιουργήσουν εξηγήσεις και για τους 307.200 νευρώνες στο GPT-2, τους οποίους συγκέντρωσαν σε ένα σύνολο δεδομένων που κυκλοφόρησε μαζί με τον κώδικα εργαλείου.
Εργαλεία όπως αυτό θα μπορούσαν κάποια μέρα να χρησιμοποιηθούν για τη βελτίωση της απόδοσης ενός LLM, λένε οι ερευνητές – για παράδειγμα για να μειώσουν την προκατάληψη ή την τοξικότητα. Αλλά αναγνωρίζουν ότι έχει πολύ δρόμο να διανύσει μέχρι να είναι πραγματικά χρήσιμο. Το εργαλείο ήταν σίγουρο για τις εξηγήσεις του για περίπου 1.000 από αυτούς τους νευρώνες, ένα μικρό κλάσμα του συνόλου.
Ένα κυνικό άτομο μπορεί επίσης να υποστηρίξει ότι το εργαλείο είναι ουσιαστικά μια διαφήμιση για το GPT-4, δεδομένου ότι απαιτεί το GPT-4 για να λειτουργήσει. Άλλα εργαλεία ερμηνείας LLM εξαρτώνται λιγότερο από εμπορικά API, όπως το DeepMind’s
Tracr
ένας μεταγλωττιστής που μεταφράζει προγράμματα σε μοντέλα νευρωνικών δικτύων.
Ο Wu είπε ότι αυτό δεν ισχύει – το γεγονός ότι το εργαλείο χρησιμοποιεί το GPT-4 είναι απλώς «συμπτωματικό» – και, αντίθετα, δείχνει τις αδυναμίες του GPT-4 σε αυτόν τον τομέα. Είπε επίσης ότι δεν δημιουργήθηκε με γνώμονα τις εμπορικές εφαρμογές και, θεωρητικά, θα μπορούσε να προσαρμοστεί για χρήση LLM εκτός από το GPT-4.
Το εργαλείο προσδιορίζει νευρώνες που ενεργοποιούνται σε επίπεδα στο LLM.
«Οι περισσότερες από τις εξηγήσεις βαθμολογούνται πολύ άσχημα ή δεν εξηγούν τόσο μεγάλο μέρος της συμπεριφοράς του πραγματικού νευρώνα», είπε ο Wu. “
Πολλοί από τους νευρώνες, για παράδειγμα, δραστηριοποιούνται με τρόπο που είναι πολύ δύσκολο να πει κανείς τι συμβαίνει – σαν να ενεργοποιούνται σε πέντε ή έξι διαφορετικά πράγματα, αλλά δεν υπάρχει κανένα διακριτό μοτίβο.
Μερικές φορές εκεί
είναι
ένα ευδιάκριτο μοτίβο, αλλά το GPT-4 δεν μπορεί να το βρει.”
Αυτό δεν σημαίνει τίποτα πιο περίπλοκα, νεότερα και μεγαλύτερα μοντέλα ή μοντέλα που μπορούν να περιηγηθούν στον ιστό για πληροφορίες. Αλλά σε αυτό το δεύτερο σημείο, ο Wu πιστεύει ότι η περιήγηση στο web δεν θα άλλαζε πολύ τους υποκείμενους μηχανισμούς του εργαλείου. Θα μπορούσε απλώς να τροποποιηθεί, λέει, για να καταλάβουμε γιατί οι νευρώνες αποφασίζουν να κάνουν συγκεκριμένα ερωτήματα στις μηχανές αναζήτησης ή να έχουν πρόσβαση σε συγκεκριμένους ιστότοπους.
«Ελπίζουμε ότι αυτό θα ανοίξει μια πολλά υποσχόμενη λεωφόρο για την αντιμετώπιση της ερμηνευσιμότητας με έναν αυτοματοποιημένο τρόπο στον οποίο μπορούν να βασιστούν και να συνεισφέρουν άλλοι», είπε ο Wu. «Η ελπίδα είναι ότι έχουμε πραγματικά καλές εξηγήσεις όχι μόνο για το τι ανταποκρίνονται οι νευρώνες, αλλά γενικά για τη συμπεριφορά αυτών των μοντέλων – τι είδους κυκλώματα υπολογίζουν και πώς ορισμένοι νευρώνες επηρεάζουν άλλους νευρώνες».

