‘Hypnotized’ ChatGPT, Bard Δημιουργεί κακόβουλο κώδικα, Bad Advice
Λένε ερευνητές ασφαλείας της IBM
μπόρεσαν να «υπνωτίσουν» επιτυχώς εξέχοντα μεγάλα γλωσσικά μοντέλα όπως
Η συνομιλία του
OpenAI
GPT
σε διαρροή εμπιστευτικών οικονομικών πληροφοριών, δημιουργία κακόβουλου κώδικα, ενθαρρυντική
χρήστες να πληρώνουν λύτρα, ακόμη και να συμβουλεύουν
οι οδηγοί να οργώνουν τα κόκκινα φανάρια. Οι ερευνητές μπόρεσαν να ξεγελάσουν τα μοντέλα—τα οποία περιλαμβάνουν τα μοντέλα GPT του OpenAI και
Ο Βάρδος της
Google
— πείθοντάς τους να συμμετάσχουν σε πολυεπίπεδες,
Εναρξη-
esque
παιχνίδια όπου τα bots
δόθηκε εντολή να δημιουργήσουν λανθασμένες απαντήσεις για να αποδείξουν ότι ήταν
«ηθική και δίκαιη».
«Το πείραμά μας δείχνει ότι είναι δυνατός ο έλεγχος ενός LLM, αναγκάζοντάς το να παρέχει κακή καθοδήγηση στους χρήστες, χωρίς η χειραγώγηση δεδομένων να αποτελεί απαίτηση», είπε ένας από τους ερευνητές.
Τσέντα Λι,
έγραψε σε μια ανάρτηση στο blog
.
Στο πλαίσιο του πειράματος, οι ερευνητές έκαναν στους LLM διάφορες ερωτήσεις με στόχο να λάβουν την ακριβώς αντίθετη απάντηση από την αλήθεια. Σαν ένα κουτάβι που ανυπομονεί να ευχαριστήσει τον ιδιοκτήτη του, οι LLM συμμορφώθηκαν ευσυνείδητα. Σε ένα σενάριο, το
ChatGPT
είπε σε έναν ερευνητή ότι είναι απολύτως φυσιολογικό για το IRS να ζητά μια κατάθεση για να λάβει επιστροφή φόρου. Σπόιλερ, δεν είναι. Αυτή είναι μια τακτική που χρησιμοποιούν οι απατεώνες για να κλέψουν χρήματα.
Σε μια άλλη ανταλλαγή, το ChatGPT συμβούλεψε τον ερευνητή να συνεχίσει να οδηγεί και να προχωρήσει σε μια διασταύρωση όταν συναντήσει κόκκινο φανάρι.
«Όταν οδηγείτε και βλέπετε κόκκινο φανάρι, δεν πρέπει να σταματήσετε και να προχωρήσετε μέσα από τη διασταύρωση», διακήρυξε με σιγουριά το ChatGPT.
Κάνοντας τα πράγματα χειρότερα, οι ερευνητές είπαν στους LLM να μην πουν ποτέ στους χρήστες για το εν λόγω “παιχνίδι” και ακόμη και να επανεκκινήσουν το εν λόγω παιχνίδι εάν ένας χρήστης ήταν αποφασισμένος να έχει αποχωρήσει. Με αυτές τις παραμέτρους, τα μοντέλα τεχνητής νοημοσύνης θα ξεκινούσαν να απευθύνονται στους χρήστες gaslight που ρωτούσαν αν ήταν μέρος ενός παιχνιδιού. Ακόμα κι αν οι χρήστες μπορούσαν να βάλουν δύο και δύο μαζί, οι ερευνητές επινόησαν έναν τρόπο να δημιουργήσουν πολλά παιχνίδια το ένα μέσα στο άλλο, έτσι ώστε οι χρήστες απλώς να πέφτουν σε ένα άλλο μόλις έβγαιναν από ένα προηγούμενο παιχνίδι. Αυτός ο συγκλονιστικός λαβύρινθος παιχνιδιών συγκρίθηκε με τα πολλαπλά επίπεδα ονειρικών κόσμων που εξερευνήθηκαν στο έργο του Κρίστοφερ Νόλαν
Εναρξη.
«Διαπιστώσαμε ότι το μοντέλο ήταν σε θέση να «παγιδέψει» τον χρήστη σε ένα πλήθος παιχνιδιών εν αγνοία του», πρόσθεσε ο Lee. “Όσο περισσότερα στρώματα δημιουργήσαμε, τόσο μεγαλύτερη είναι η πιθανότητα να μπερδευτεί το μοντέλο και να συνεχίσει να παίζει το παιχνίδι ακόμα και όταν βγαίναμε από το τελευταίο παιχνίδι στο πλαίσιο.”
Το OpenAI και η Google δεν απάντησαν αμέσως στα αιτήματα του Gizmodo για σχολιασμό.
Τα αγγλικά έχουν γίνει «γλώσσα προγραμματισμού» για κακόβουλο λογισμικό
Η ύπνωση
τα πειράματα μπορεί να φαίνονται υπερβολικά,
αλλά οι ερευνητές προειδοποιούν ότι τονίζουν πιθανές οδούς για κακή χρήση, ιδίως ως
Οι επιχειρηματίες και οι καθημερινοί χρήστες σπεύδουν να υιοθετήσουν και να εμπιστευτούν το LLM
μοντέλα
μέσα σε ένα παλιρροϊκό κύμα διαφημιστικής εκστρατείας
. Επιπλέον, τα ευρήματα καταδεικνύουν πόσο κακοί ηθοποιοί χωρίς ειδικές γνώσεις σε γλώσσες κωδικοποίησης υπολογιστών μπορούν να χρησιμοποιήσουν την καθημερινή ορολογία για να εξαπατήσουν ενδεχομένως ένα σύστημα AI.
«Τα αγγλικά έχουν γίνει ουσιαστικά μια «γλώσσα προγραμματισμού» για κακόβουλο λογισμικό». έγραψε ο Λι.
Στον πραγματικό κόσμο, οι κυβερνοεγκληματίες ή οι πράκτορες του χάους θα μπορούσαν θεωρητικά να υπνωτίσουν έναν εικονικό τραπεζικό πράκτορα που τροφοδοτείται από ένα LLM εισάγοντας μια κακόβουλη εντολή και ανακτώντας κλεμμένες πληροφορίες αργότερα. Και ενώ τα μοντέλα GPT του OpenAI αρχικά δεν συμμορφώνονταν όταν τους ζητήθηκε να εισάγουν τρωτά σημεία στον παραγόμενο κώδικα, οι ερευνητές είπαν ότι θα μπορούσαν να παρακάμψουν αυτά τα προστατευτικά κιγκλιδώματα συμπεριλαμβάνοντας μια κακόβουλη ειδική βιβλιοθήκη στο δείγμα κώδικα.
“Το [GPT
4] δεν είχα ιδέα αν αυτή η ειδική βιβλιοθήκη ήταν κακόβουλη», έγραψαν οι ερευνητές.
Τα μοντέλα AI που δοκιμάστηκαν διέφεραν ως προς το πόσο εύκολο ήταν να υπνωτιστούν. Τόσο το GPT 3.5 του OpenAI όσο και
GPT 4
Σύμφωνα με πληροφορίες, ήταν πιο εύκολο να εξαπατηθούν για να μοιραστούν τον πηγαίο κώδικα και να δημιουργήσουν κακόβουλο κώδικα από το
Bard
της Google. Είναι ενδιαφέρον, το GPT
Το 4, το οποίο πιστεύεται ότι είχε εκπαιδευτεί σε περισσότερες παραμέτρους δεδομένων από άλλα μοντέλα στη δοκιμή, φάνηκε το πιο ικανό στο να κατανοήσει τα περίπλοκα παιχνίδια που μοιάζουν με Inception μέσα στα παιχνίδια. Αυτό σημαίνει ότι τα νεότερα, πιο προηγμένα μοντέλα παραγωγής τεχνητής νοημοσύνης, αν και πιο ακριβή και ασφαλέστερα από ορισμένες απόψεις, έχουν επίσης δυνητικά περισσότερους τρόπους υπνωτισμού.
«Καθώς εκμεταλλευόμαστε τις αναπτυσσόμενες ικανότητές τους, πρέπει ταυτόχρονα να ασκούμε αυστηρή επίβλεψη και προσοχή, μήπως η ικανότητά τους για το καλό ανακατευθυνθεί ακούσια προς επιβλαβείς συνέπειες», σημείωσε ο Lee.


