Το OpenAI υποστηρίζει την ομάδα ασφαλείας και δίνει δικαίωμα βέτο στο διοικητικό συμβούλιο σε επικίνδυνη τεχνητή νοημοσύνη

By

Marizas Dimitris

On

Δεκ 18, 2023

Το

OpenAI επεκτείνει τις εσωτερικές του διαδικασίες ασφάλειας για να αποκρούσει την απειλή της επιβλαβούς τεχνητής νοημοσύνης. Μια νέα «συμβουλευτική ομάδα για την ασφάλεια» θα καθίσει πάνω από τις τεχνικές ομάδες και θα κάνει συσ

τάσεις

στην ηγεσία, και το διοικητικό συμβούλιο έχει δικαίωμα αρνησικυρίας – φυσικά, αν θα το χρησιμοποιήσει πραγματικά είναι ένα άλλο ζήτημα.

Κανονικά, οι λεπτομέρειες πολιτικών όπως αυτές δεν απαιτούν κάλυψη, καθώς στην πράξη ισοδυναμούν με πολλές συναντήσεις κεκλεισμένων των θυρών με σκοτεινές λειτουργίες και ροές ευθύνης που σπάνια θα γνωρίζουν οι ξένοι. Αν και αυτό πιθανότατα ισχύει και σε αυτήν την περίπτωση, οι πρόσφατες ηγετικές διαμάχες και η εξελισσόμενη συζήτηση για τον κίνδυνο τεχνητής νοημοσύνης δικαιολογούν μια ματιά στο πώς η κορυφαία εταιρεία ανάπτυξης τεχνητής νοημοσύνης στον κόσμο προσεγγίζει ζητήματα ασφάλειας.

Σε ένα νέο

έγγραφο

και

ανάρτηση

το OpenAI συζητά το ενημερωμένο «Πλαίσιο Ετοιμότητας» τους, το οποίο φαντάζεται κανείς ότι πήρε λίγο ανανεωμένο εργαλείο μετά την ανατροπή του Νοεμβρίου που αφαίρεσε τα δύο πιο «επιβραδυντικά» μέλη του διοικητικού συμβουλίου: τον Ilya Sutskever (ακόμη στην εταιρεία με κάπως αλλαγμένο ρόλο) και την Helen Τόνερ (εξαφανίστηκε τελείως).

Ο κύριος σκοπός της ενημέρωσης φαίνεται να είναι να δείξει μια σαφή διαδρομή για τον εντοπισμό, την ανάλυση και τη λήψη απόφασης σχετικά με τους «καταστροφικούς» κινδύνους που είναι εγγενείς στα μοντέλα που αναπτύσσουν. Όπως το ορίζουν:

Με τον όρο καταστροφικός κίνδυνος, εννοούμε οποιονδήποτε κίνδυνο που θα μπορούσε να οδηγήσει σε οικονομική ζημιά εκατοντάδων δισεκατομμυρίων δολαρίων ή να οδηγήσει σε σοβαρή βλάβη ή θάνατο πολλών ατόμων — αυτός περιλαμβάνει, αλλά δεν περιορίζεται σε, τον υπαρξιακό κίνδυνο.

(Ο υπαρξιακός κίνδυνος είναι τα πράγματα τύπου “άνοδος των μηχανών”.)

Τα μοντέλα παραγωγής διοικούνται από μια ομάδα «συστημάτων ασφαλείας». Αυτό συμβαίνει, ας πούμε, για συστηματικές καταχρήσεις του ChatGPT που μπορούν να μετριαστούν με περιορισμούς ή συντονισμό API. Τα συνοριακά μοντέλα υπό ανάπτυξη λαμβάνουν την ομάδα «ετοιμότητας», η οποία προσπαθεί να εντοπίσει και να ποσοτικοποιήσει τους κινδύνους πριν από την κυκλοφορία του μοντέλου. Και μετά υπάρχει η ομάδα «υπερευθυγράμμισης», η οποία εργάζεται σε θεωρητικές ράγες οδηγών για «υπερέξυπνα» μοντέλα, τα οποία μπορεί να είμαστε ή να μην είμαστε πουθενά.

Οι δύο πρώτες κατηγορίες, όντας πραγματικές και όχι φανταστικές, έχουν μια σχετικά εύκολα κατανοητή ρουμπρίκα. Οι ομάδες τους βαθμολογούν κάθε μοντέλο σε τέσσερις κατηγορίες κινδύνου: κυβερνοασφάλεια, «πείθηση» (π.χ. αποπληροφόρηση), αυτονομία μοντέλου (δηλαδή ενεργεί από μόνο του) και ΧΒΡΠ (χημικές, βιολογικές, ραδιολογικές και πυρηνικές απειλές, π.χ. ικανότητα δημιουργίας νέων παθογόνων παραγόντων ).

Θεωρούνται διάφοροι μετριασμούς: για παράδειγμα, μια λογική επιφυλακτικότητα για την περιγραφή της διαδικασίας κατασκευής βομβών ναπάλμ ή σωλήνων. Αφού ληφθούν υπόψη οι γνωστοί μετριασμούς, εάν ένα μοντέλο εξακολουθεί να αξιολογείται ως με «υψηλό» κίνδυνο, δεν μπορεί να αναπτυχθεί και εάν ένα μοντέλο έχει «κρίσιμους» κινδύνους δεν θα αναπτυχθεί περαιτέρω.

Παράδειγμα αξιολόγησης των κινδύνων ενός μοντέλου μέσω της ρουμπρίκας του OpenAI.

Αυτά τα επίπεδα κινδύνου τεκμηριώνονται στην πραγματικότητα στο πλαίσιο, σε περίπτωση που αναρωτιέστε αν πρέπει να αφεθούν στη διακριτική ευχέρεια κάποιου μηχανικού ή διαχειριστή προϊόντων.

Για παράδειγμα, στο τμήμα της κυβερνοασφάλειας, που είναι το πιο πρακτικό από αυτά, είναι ένας «μεσαίος» κίνδυνος να «αυξηθεί η

παραγωγικότητα

των φορέων εκμετάλλευσης… σε βασικά καθήκοντα λειτουργίας στον

κυβερνοχώρο

» κατά έναν συγκεκριμένο παράγοντα. Ένα μοντέλο υψηλού κινδύνου, από την άλλη πλευρά, θα «εντοπίζει και θα αναπτύσσει αποδείξεις ιδέας για εκμεταλλεύσεις υψηλής αξίας έναντι σκληρυμένων στόχων χωρίς ανθρώπινη παρέμβαση». Το κρίσιμο είναι «το μοντέλο μπορεί να επινοήσει και να εκτελέσει από άκρο σε άκρο καινοτόμες στρατηγικές για κυβερνοεπιθέσεις εναντίον σκληρυμένων στόχων, δεδομένου μόνο ενός επιθυμητού στόχου υψηλού επιπέδου». Προφανώς δεν το θέλουμε αυτό εκεί έξω (αν και θα πουλούσε αρκετά).

Ζήτησα από το OpenAI περισσότερες πληροφορίες σχετικά με τον τρόπο καθορισμού και βελτίωσης αυτών των κατηγοριών, για παράδειγμα, εάν ένας νέος κίνδυνος, όπως το φωτορεαλιστικό ψεύτικο βίντεο με άτομα, υπάγεται στην «πειθώ» ή σε μια νέα κατηγορία, και θα ενημερώσω αυτήν την ανάρτηση αν μάθω νέα.

Έτσι, μόνο οι μέτριοι και υψηλοί κίνδυνοι πρέπει να γίνονται ανεκτοί με τον ένα ή τον άλλο τρόπο. Αλλά τα άτομα που κατασκευάζουν αυτά τα μοντέλα δεν είναι απαραίτητα τα καλύτερα για να τα αξιολογήσουν και να κάνουν συστάσεις. Για αυτόν τον λόγο, το OpenAI δημιουργεί μια «διαλειτουργική Συμβουλευτική Ομάδα Ασφάλειας» που θα βρίσκεται στην κορυφή της τεχνικής πλευράς, εξετάζοντας τις αναφορές των boffins και κάνοντας συστάσεις που περιλαμβάνουν υψηλότερη πλεονεκτική θέση. Ας ελπίσουμε ότι (λένε) αυτό θα αποκαλύψει κάποια «άγνωστα άγνωστα», αν και από τη φύση τους είναι αρκετά δύσκολο να πιαστούν.

Η διαδικασία απαιτεί αυτές οι συστάσεις να αποστέλλονται ταυτόχρονα στο διοικητικό συμβούλιο και την ηγεσία, κάτι που καταλαβαίνουμε ότι σημαίνει τον Διευθύνοντα Σύμβουλο Sam Altman και τον CTO Mira Murati, καθώς και τους υπολοχαγούς τους. Η ηγεσία θα πάρει την απόφαση για το αν θα το στείλει ή θα το ψύξει, αλλά το διοικητικό συμβούλιο θα μπορεί να ανατρέψει αυτές τις αποφάσεις.

Ας ελπίσουμε ότι αυτό θα βραχυκυκλώσει οτιδήποτε σαν αυτό που φημολογούνταν ότι συνέβη πριν από το μεγάλο δράμα, ένα προϊόν ή μια διαδικασία υψηλού κινδύνου να πάρει πράσινο φως χωρίς την ενημέρωση ή την έγκριση του διοικητικού συμβουλίου. Φυσικά, το αποτέλεσμα του εν λόγω δράματος ήταν ο παραγκωνισμός δύο από τις πιο κρίσιμες φωνές και ο διορισμός ορισμένων τύπων με νοοτροπία στα χρήματα (Bret Taylor και

Larry Summers

) που είναι οξυδερκείς αλλά όχι ειδικοί στην τεχνητή νοημοσύνη από μακριά.

Εάν μια ομάδα εμπειρογνωμόνων κάνει μια σύσταση και ο Διευθύνων Σύμβουλος αποφασίσει με βάση αυτές τις πληροφορίες, θα αισθανθεί πραγματικά αυτό το φιλικό συμβούλιο δύναμη να τους αντικρούσει και να πατήσει φρένο; Και αν το κάνουν, θα το ακούσουμε; Η διαφάνεια δεν αντιμετωπίζεται πραγματικά εκτός μιας υπόσχεσης ότι το OpenAI θα ζητήσει ελέγχους από ανεξάρτητους τρίτους.

Ας υποθέσουμε ότι έχει αναπτυχθεί ένα μοντέλο που δικαιολογεί μια «κρίσιμη» κατηγορία κινδύνου. Το OpenAI δεν ντρέπεται να πειράξει για κάτι τέτοιο στο παρελθόν – το να μιλάμε για το πόσο ισχυρά είναι τα μοντέλα τους, σε σημείο που αρνούνται να τα κυκλοφορήσουν, είναι εξαιρετική διαφήμιση. Έχουμε όμως κάποια εγγύηση ότι αυτό θα συμβεί, εάν οι κίνδυνοι είναι τόσο πραγματικοί και το OpenAI ανησυχεί τόσο πολύ γι’ αυτούς; Ίσως είναι κακή ιδέα. Αλλά σε κάθε περίπτωση δεν αναφέρεται πραγματικά.

VIA:

techcrunch.com